TinyStories:小模型也能讲好故事?
2025-01-02

研究人员开发了TinyStories数据集,这是一个由GPT-3.5和GPT-4生成的简短故事集,仅包含3-4岁儿童通常理解的词汇。利用TinyStories训练的小型语言模型(参数少于1000万),即使架构简单(只有一个Transformer块),也能生成流畅、连贯的多段故事,展现出令人惊讶的语法和推理能力。这项研究挑战了大型语言模型才能生成连贯文本的传统观点,并提出了一种新的模型评估方法,使用GPT-4对模型生成的文本进行评分,克服了传统基准的局限性。
AI
小样本学习