ChemBench：大型语言模型在化学领域的基准测试

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

ChemBench：大型语言模型在化学领域的基准测试

2025-06-16

ChemBench是一个新的基准测试数据集，用于评估大型语言模型（LLM）在化学领域的性能。它包含各种类型的化学问题，涵盖多个化学子领域，并对问题难度进行了分级。测试结果显示，领先的LLM模型在整体性能上超过了人类专家，但在知识密集型问题和化学推理方面仍存在不足。ChemBench的创建旨在推动化学LLM的发展，并为更可靠的模型评估提供工具。

(www.nature.com)

DARPA激光无线能量传输技术取得突破性进展

AI编码代理：从辅助工具到核心伙伴