Der GPT-3-Moment für RL: Der Aufstieg des Replikationstrainings
Dieser Artikel sagt einen bevorstehenden „GPT-3-Moment“ für Reinforcement Learning (RL) voraus, der ein massives Training in Tausenden von verschiedenen Umgebungen beinhaltet, um starke, wenige Aufnahmen und aufgabenagnostische Fähigkeiten zu erreichen. Dies erfordert ein beispielloses Ausmaß und eine beispiellose Vielfalt an Trainingsumgebungen, die möglicherweise Zehntausenden von Jahren an „modellorientierter Aufgabenzeit“ entsprechen. Die Autoren schlagen ein neues Paradigma vor, „Replikationstraining“, bei dem KIs bestehende Softwareprodukte oder Funktionen duplizieren, um groß angelegte, automatisch bewertbare Trainingsaufgaben zu erstellen. Obwohl Herausforderungen bestehen, bietet dieser Ansatz einen klaren Weg zur Skalierung von RL, der es KIs möglicherweise ermöglicht, komplette Softwareprojekte autonom abzuschließen.