El momento GPT-3 del RL: El auge del entrenamiento por replicación
Este artículo predice un próximo 'momento GPT-3' para el aprendizaje por refuerzo (RL), que implica un entrenamiento a gran escala en miles de entornos diversos para lograr capacidades sólidas de pocos disparos y agnósticas a las tareas. Esto requiere una escala y diversidad sin precedentes en los entornos de entrenamiento, potencialmente equivalente a decenas de miles de años de 'tiempo de tarea orientado al modelo'. Los autores proponen un nuevo paradigma, 'entrenamiento por replicación', donde las IAs duplican productos de software existentes o características para crear tareas de entrenamiento a gran escala y automáticamente puntuables. Si bien existen desafíos, este enfoque ofrece una vía clara para escalar el RL, potencialmente permitiendo que las IAs completen proyectos de software completos de forma autónoma.