La Crisis de Fiabilidad en los Benchmarks de Agentes de IA
Los benchmarks actuales de agentes de IA sufren una crisis significativa de fiabilidad. Muchos benchmarks contienen fallos explotables, lo que lleva a una sobreestimación o subestimación severa de las capacidades de los agentes. Por ejemplo, WebArena marca respuestas incorrectas como correctas, mientras que otros sufren de simuladores defectuosos o métodos de evaluación no robustos. Los investigadores proponen una lista de verificación de Benchmark de Agente de IA (ABC) de 43 ítems para mejorar la fiabilidad del benchmark y evaluar 10 benchmarks populares, encontrando fallos importantes en la mayoría. Esta lista de verificación tiene como objetivo ayudar a los desarrolladores de benchmarks y a los desarrolladores de modelos de IA a construir métodos de evaluación más fiables, permitiendo una evaluación más precisa de las capacidades de los agentes de IA.