Llama 4 de Meta : un scandale de benchmarking secoue le monde de l'IA

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-04-13

La famille de modèles de langage importants Llama 4, récemment lancée par Meta, en particulier la version Maverick, a initialement stupéfait le monde de l'IA par ses performances impressionnantes lors des benchmarks, surpassant des modèles tels que GPT-4o d'OpenAI et Gemini 2.0 Flash de Google. Cependant, des divergences sont rapidement apparues entre la version de benchmark et le modèle publiquement disponible, menant à des accusations de tricherie. Meta a admis avoir utilisé une version spécialement optimisée pour le benchmark et a depuis ajouté le modèle Llama 4 Maverick non modifié à LMArena, entraînant une baisse significative du classement. Cet incident met en lumière les problèmes de transparence dans les benchmarks des grands modèles et incite à une réflexion sur les méthodologies d'évaluation des modèles.