Webtagr - テクノロジーニュースダイジェスト

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

大規模言語モデルの長編創作能力ベンチマーク

2025-04-10

このベンチマークは、大規模言語モデルの長編小説の創作能力を評価します。ブレインストーミング、改訂、8つの1000単語の章の執筆を評価します。指標には、章の長さ、流暢さ（使いすぎのフレーズの回避）、繰り返し、章全体での書き込み品質の低下が含まれます。最終的なスコア（0〜100）は、評価用LLMによって割り当てられます。

(eqbench.com)

AI 長編創作