TinyStories: 작은 언어 모델도 일관성 있는 영어 이야기를 할 수 있을까?
2025-01-02
연구자들은 GPT-3.5와 GPT-4로 생성된, 전형적인 3~4세 어린이가 이해할 수 있는 어휘만 사용한 짧은 이야기의 합성 데이터셋인 TinyStories를 발표했습니다. 1천만개 미만의 매개변수와 단순한 아키텍처(단일 트랜스포머 블록)를 가진 TinyStories로 훈련된 언어 모델조차도 놀랍도록 훌륭한 문법과 추론 능력을 보이는 유창하고 일관된 여러 단락의 이야기를 생성할 수 있다는 것을 보여주었습니다. 이는 일관된 텍스트 생성에는 대규모 모델과 복잡한 아키텍처가 필요하다는 생각에 이의를 제기하는 것이며, GPT-4를 사용하여 생성된 이야기를 인간 교사처럼 채점하는 새로운 평가 패러다임을 도입하여 표준 벤치마크의 한계를 극복합니다.
AI
소수 샷 학습