大型语言模型长篇创作能力评测基准

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

2025-04-10

这项基准测试评估大型语言模型创作长篇故事的能力，包括构思、修改和撰写8个1000字章节。评测指标涵盖章节长度、语言流畅度（避免过度使用特定词汇）、语句重复率以及写作质量随章节递进的变化趋势。最终得分由评估模型综合评定，范围为0-100分。

(eqbench.com)

AI 长篇创作 AI评测