テキストアドベンチャーゲームにおけるLLMの評価:新たなアプローチ
この記事では、テキストアドベンチャーゲームにおける大規模言語モデル(LLM)の能力を評価する新しい方法を提案します。このアプローチは、ターン制限とゲーム内の成果を設定し、LLMがこれらの制約内でどれだけ進歩できるかを測定します。テキストアドベンチャーゲームの高い自由度と分岐を考慮すると、この方法は絶対的なパフォーマンススコアを提供するのではなく、異なるLLM間の相対的な比較を提供することを目的としています。LLMは一連の成果目標と、それらを達成するための限られたターン数が与えられます。最終スコアは、達成された成果の数に基づきます。強力なLLMであっても、ターン制限内ですべての分岐を探索するのは困難であるため、スコアは絶対的なゲームスキルではなく、相対的な能力を反映しています。
続きを読む