大型语言模型长篇创作能力评测基准
2025-04-10
这项基准测试评估大型语言模型创作长篇故事的能力,包括构思、修改和撰写8个1000字章节。评测指标涵盖章节长度、语言流畅度(避免过度使用特定词汇)、语句重复率以及写作质量随章节递进的变化趋势。最终得分由评估模型综合评定,范围为0-100分。
这项基准测试评估大型语言模型创作长篇故事的能力,包括构思、修改和撰写8个1000字章节。评测指标涵盖章节长度、语言流畅度(避免过度使用特定词汇)、语句重复率以及写作质量随章节递进的变化趋势。最终得分由评估模型综合评定,范围为0-100分。