ChemBench：化学におけるLLMのベンチマーク

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

ChemBench：化学におけるLLMのベンチマーク

2025-06-16

ChemBenchは、化学分野における大規模言語モデル（LLM）の性能を評価するために設計された新しいベンチマークデータセットです。様々な化学の質問を難易度別に分類し、幅広い分野を網羅しています。結果は、主要なLLMが全体的な性能において人間の専門家を凌駕していることを示していますが、知識集約的な質問や化学的推論においては依然として限界があります。ChemBenchは、化学LLMの発展を促進し、より堅牢なモデル評価のためのツールを提供することを目的としています。

(www.nature.com)

DARPA、長距離ワイヤレス電力送電で記録を更新

AIコーディングエージェント：便利なアシスタントから不可欠なパートナーへ