El Último Examen de la Humanidad: Un Nuevo Estándar para la IA

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-01-23

Scale AI y el Centro para la Seguridad de la IA (CAIS) publicaron los resultados del "Último Examen de la Humanidad", una nueva prueba diseñada para evaluar los límites del conocimiento de la IA. Con más de 3.000 preguntas de nivel experto en diversas áreas, el examen reveló que incluso los modelos de IA más avanzados (como GPT-4, Claude 3.5 y Gemini 1.5) respondieron correctamente a menos del 10% de las preguntas. Esto destaca lagunas significativas en las capacidades de razonamiento complejo. La prueba aborda la 'saturación de benchmarks', donde los modelos sobresalen en pruebas existentes, pero tienen dificultades con problemas nuevos. El conjunto de datos se lanzará públicamente para impulsar la investigación y el desarrollo de IA, proporcionando información valiosa sobre el estado actual y la dirección futura de la IA.