強化学習のGPT-3モーメント:複製学習の台頭
この記事は、強化学習(RL)が間もなく独自の「GPT-3モーメント」を迎えることを予測しています。それは、数千もの多様な環境にわたる大規模なトレーニングを行い、強力な少サンプル、タスク非依存型の能力を実現することです。これには、前例のない規模と多様性のトレーニング環境が必要であり、数十万年の「モデル向けタスク時間」に相当する可能性があります。著者らは、「複製学習」という新しいパラダイムを提案しています。これは、AIが既存のソフトウェア製品またはその特定の機能を複製することで、大規模で自動的に採点可能なトレーニングタスクを作成するというものです。課題はありますが、このアプローチはRLのスケーリングのための明確な道筋を提供し、AIが完全なソフトウェアプロジェクトを自律的に完了することを可能にする可能性があります。
続きを読む