O Momento GPT-3 do RL: A Ascensão do Treinamento de Replicação

Este artigo prevê um próximo 'momento GPT-3' para o aprendizado por reforço (RL), envolvendo treinamento em larga escala em milhares de ambientes diversos para alcançar habilidades fortes de poucos disparos e agnósticas a tarefas. Isso requer escala e diversidade sem precedentes em ambientes de treinamento, potencialmente equivalente a dezenas de milhares de anos de 'tempo de tarefa voltado para o modelo'. Os autores propõem um novo paradigma, 'treinamento de replicação', em que IAs duplicam produtos de software existentes ou recursos para criar tarefas de treinamento em larga escala e automaticamente pontuáveis. Embora existam desafios, essa abordagem oferece um caminho claro para escalar o RL, potencialmente permitindo que IAs completem projetos de software inteiros de forma autônoma.
Leia mais