大規模言語モデルの長編創作能力ベンチマーク

2025-04-10

このベンチマークは、大規模言語モデルの長編小説の創作能力を評価します。ブレインストーミング、改訂、8つの1000単語の章の執筆を評価します。指標には、章の長さ、流暢さ(使いすぎのフレーズの回避)、繰り返し、章全体での書き込み品質の低下が含まれます。最終的なスコア(0〜100)は、評価用LLMによって割り当てられます。

続きを読む