ChemBench:化学におけるLLMのベンチマーク

2025-06-16
ChemBench:化学におけるLLMのベンチマーク

ChemBenchは、化学分野における大規模言語モデル(LLM)の性能を評価するために設計された新しいベンチマークデータセットです。様々な化学の質問を難易度別に分類し、幅広い分野を網羅しています。結果は、主要なLLMが全体的な性能において人間の専門家を凌駕していることを示していますが、知識集約的な質問や化学的推論においては依然として限界があります。ChemBenchは、化学LLMの発展を促進し、より堅牢なモデル評価のためのツールを提供することを目的としています。

AI