TinyStories:小さな言語モデルでも、筋の通った英語の物語を語れるか?

2025-01-02

研究者たちは、TinyStoriesという、GPT-3.5とGPT-4によって生成された、典型的な3~4歳児が理解できる語彙のみを使用した短い物語の合成データセットを発表しました。彼らは、TinyStoriesで訓練された言語モデル、たとえ1000万パラメータ未満でシンプルなアーキテクチャ(単一のトランスフォーマーブロック)であっても、驚くほど良い文法と推論能力を示す、流暢で首尾一貫した複数段落の物語を生成できることを示しました。これは、首尾一貫したテキスト生成には大規模なモデルと複雑なアーキテクチャが必要であるという考え方に異議を唱えるものであり、GPT-4を使用して生成された物語を人間の教師のように採点する新しい評価パラダイムを導入し、標準的なベンチマークの限界を克服しています。