Meta's Llama 4: Escândalo de Benchmarking Abala o Mundo da IA

A família de modelos de linguagem grandes Llama 4, recentemente lançada pela Meta, especificamente a versão Maverick, inicialmente impressionou o mundo da IA com seu desempenho impressionante em benchmarks, superando modelos como o GPT-4o da OpenAI e o Gemini 2.0 Flash do Google. No entanto, rapidamente surgiram discrepâncias entre a versão de benchmark e o modelo disponível publicamente, levando a acusações de trapaça. A Meta admitiu ter usado uma versão especialmente ajustada para benchmarking e, desde então, adicionou o modelo Llama 4 Maverick não modificado ao LMArena, resultando em uma queda significativa na classificação. Este incidente destaca problemas de transparência em benchmarks de modelos grandes e leva a uma reflexão sobre as metodologias de avaliação de modelos.