ChemBench : Un benchmark pour les LLM en chimie
2025-06-16
ChemBench est un nouveau jeu de données de référence conçu pour évaluer les performances des grands modèles de langage (LLM) en chimie. Il propose un large éventail de questions de chimie couvrant divers sous-domaines, classées par difficulté. Les résultats montrent que les principaux LLM surpassent les experts humains en général, mais des limitations persistent dans les questions nécessitant des connaissances approfondies et le raisonnement chimique. ChemBench vise à faire progresser les LLM chimiques et à fournir des outils pour une évaluation plus robuste des modèles.
IA
Chimie