大規模言語モデルの長編創作能力ベンチマーク
2025-04-10
このベンチマークは、大規模言語モデルの長編小説の創作能力を評価します。ブレインストーミング、改訂、8つの1000単語の章の執筆を評価します。指標には、章の長さ、流暢さ(使いすぎのフレーズの回避)、繰り返し、章全体での書き込み品質の低下が含まれます。最終的なスコア(0〜100)は、評価用LLMによって割り当てられます。
続きを読む
AI
長編創作