El Último Examen de la Humanidad: Un Nuevo Estándar para la IA

2025-01-23
El Último Examen de la Humanidad: Un Nuevo Estándar para la IA

Scale AI y el Centro para la Seguridad de la IA (CAIS) publicaron los resultados del "Último Examen de la Humanidad", una nueva prueba diseñada para evaluar los límites del conocimiento de la IA. Con más de 3.000 preguntas de nivel experto en diversas áreas, el examen reveló que incluso los modelos de IA más avanzados (como GPT-4, Claude 3.5 y Gemini 1.5) respondieron correctamente a menos del 10% de las preguntas. Esto destaca lagunas significativas en las capacidades de razonamiento complejo. La prueba aborda la 'saturación de benchmarks', donde los modelos sobresalen en pruebas existentes, pero tienen dificultades con problemas nuevos. El conjunto de datos se lanzará públicamente para impulsar la investigación y el desarrollo de IA, proporcionando información valiosa sobre el estado actual y la dirección futura de la IA.

IA