O Último Exame da Humanidade: Um Novo Padrão para IA

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

O Último Exame da Humanidade: Um Novo Padrão para IA

2025-01-23

A Scale AI e o Centro para a Segurança da IA (CAIS) publicaram os resultados do "Último Exame da Humanidade", um novo teste criado para avaliar os limites do conhecimento da IA. Com mais de 3.000 perguntas de nível especialista em diversas áreas, o exame revelou que até mesmo os modelos de IA mais avançados (como GPT-4, Claude 3.5 e Gemini 1.5) responderam corretamente a menos de 10% das perguntas. Isso destaca lacunas significativas nas capacidades de raciocínio complexo. O teste aborda a 'saturação de benchmarks', onde os modelos se destacam em testes existentes, mas têm dificuldades com problemas novos. O conjunto de dados será lançado publicamente para impulsionar a pesquisa e o desenvolvimento de IA, fornecendo insights valiosos sobre o estado atual e a direção futura da IA.

(scale.com)

t4t: Uma Rede Social para Pessoas Trans e Não-Conformes ao Gênero

Um Castelo Medieval em Construção: O Projeto Guédelon