Llama 4 de Meta: Un escándalo de evaluación comparativa sacude el mundo de la IA

2025-04-13
Llama 4 de Meta: Un escándalo de evaluación comparativa sacude el mundo de la IA

La familia de modelos de lenguaje grandes Llama 4, recientemente lanzada por Meta, en particular la versión Maverick, inicialmente sorprendió al mundo de la IA con su impresionante rendimiento en las evaluaciones comparativas, superando a modelos como el GPT-4o de OpenAI y el Gemini 2.0 Flash de Google. Sin embargo, rápidamente surgieron discrepancias entre la versión de evaluación comparativa y el modelo disponible públicamente, lo que llevó a acusaciones de trampa. Meta admitió haber utilizado una versión especialmente ajustada para la evaluación comparativa y, desde entonces, ha añadido el modelo Llama 4 Maverick sin modificar a LMArena, lo que ha provocado una caída significativa en la clasificación. Este incidente pone de manifiesto los problemas de transparencia en las evaluaciones comparativas de modelos grandes y lleva a una reflexión sobre las metodologías de evaluación de modelos.