Llama 4 de Meta : un scandale de benchmarking secoue le monde de l'IA

2025-04-13
Llama 4 de Meta : un scandale de benchmarking secoue le monde de l'IA

La famille de modèles de langage importants Llama 4, récemment lancée par Meta, en particulier la version Maverick, a initialement stupéfait le monde de l'IA par ses performances impressionnantes lors des benchmarks, surpassant des modèles tels que GPT-4o d'OpenAI et Gemini 2.0 Flash de Google. Cependant, des divergences sont rapidement apparues entre la version de benchmark et le modèle publiquement disponible, menant à des accusations de tricherie. Meta a admis avoir utilisé une version spécialement optimisée pour le benchmark et a depuis ajouté le modèle Llama 4 Maverick non modifié à LMArena, entraînant une baisse significative du classement. Cet incident met en lumière les problèmes de transparence dans les benchmarks des grands modèles et incite à une réflexion sur les méthodologies d'évaluation des modèles.

IA