ChemBench:大型语言模型在化学领域的基准测试
2025-06-16

ChemBench是一个新的基准测试数据集,用于评估大型语言模型(LLM)在化学领域的性能。它包含各种类型的化学问题,涵盖多个化学子领域,并对问题难度进行了分级。测试结果显示,领先的LLM模型在整体性能上超过了人类专家,但在知识密集型问题和化学推理方面仍存在不足。ChemBench的创建旨在推动化学LLM的发展,并为更可靠的模型评估提供工具。
AI