Cerebras pulvérise le record de vitesse d'inférence avec Llama 4 Maverick 400B
Cerebras Systems a atteint une vitesse d'inférence révolutionnaire de plus de 2 500 jetons par seconde (TPS) sur le modèle Llama 4 Maverick 400B paramètres de Meta, plus du double des performances de Nvidia. Cette vitesse record, vérifiée indépendamment par Artificial Analysis, est cruciale pour les applications d'IA telles que les agents, la génération de code et le raisonnement complexe, réduisant considérablement la latence et améliorant l'expérience utilisateur. Contrairement à la solution de Nvidia qui reposait sur des optimisations personnalisées non disponibles, les performances de Cerebras sont facilement accessibles via la prochaine API de Meta, offrant une solution supérieure aux développeurs et aux utilisateurs d'IA d'entreprise.