Le Dernier Examen de l'Humanité : Un Nouveau Benchmark pour l'IA

2025-01-23
Le Dernier Examen de l'Humanité : Un Nouveau Benchmark pour l'IA

Scale AI et le Center for AI Safety (CAIS) ont publié les résultats du "Dernier Examen de l'Humanité", un nouveau benchmark conçu pour tester les limites des connaissances de l'IA. Avec plus de 3 000 questions de niveau expert dans divers domaines, l'examen a révélé que même les modèles d'IA les plus avancés (tels que GPT-4, Claude 3.5 et Gemini 1.5) ont répondu correctement à moins de 10 % des questions. Cela souligne des lacunes importantes dans les capacités de raisonnement complexe. Le benchmark aborde la 'saturation des benchmarks', où les modèles excellent dans les tests existants mais ont du mal avec des problèmes nouveaux. L'ensemble de données sera publié publiquement pour faire progresser la recherche et le développement de l'IA, fournissant des informations précieuses sur l'état actuel et l'orientation future de l'IA.

Lire plus
IA