O Último Exame da Humanidade: Um Novo Padrão para IA

2025-01-23
O Último Exame da Humanidade: Um Novo Padrão para IA

A Scale AI e o Centro para a Segurança da IA (CAIS) publicaram os resultados do "Último Exame da Humanidade", um novo teste criado para avaliar os limites do conhecimento da IA. Com mais de 3.000 perguntas de nível especialista em diversas áreas, o exame revelou que até mesmo os modelos de IA mais avançados (como GPT-4, Claude 3.5 e Gemini 1.5) responderam corretamente a menos de 10% das perguntas. Isso destaca lacunas significativas nas capacidades de raciocínio complexo. O teste aborda a 'saturação de benchmarks', onde os modelos se destacam em testes existentes, mas têm dificuldades com problemas novos. O conjunto de dados será lançado publicamente para impulsionar a pesquisa e o desenvolvimento de IA, fornecendo insights valiosos sobre o estado atual e a direção futura da IA.

IA