ChemBench: Ein Benchmark für LLMs in der Chemie
2025-06-16
ChemBench ist ein neuer Benchmark-Datensatz zur Bewertung der Leistung großer Sprachmodelle (LLMs) in der Chemie. Er enthält eine Vielzahl von Chemiefragen aus verschiedenen Teilgebieten, die nach Schwierigkeit kategorisiert sind. Die Ergebnisse zeigen, dass führende LLMs die menschliche Expertenleistung insgesamt übertreffen, aber Einschränkungen bei wissensintensiven Fragen und chemischem Denken bestehen bleiben. ChemBench zielt darauf ab, chemische LLMs voranzutreiben und Werkzeuge für eine robustere Modellbewertung bereitzustellen.
KI