El momento GPT-3 del RL: El auge del entrenamiento por replicación
Este artículo predice un próximo 'momento GPT-3' para el aprendizaje por refuerzo (RL), que implica un entrenamiento a gran escala en miles de entornos diversos para lograr capacidades sólidas de pocos disparos y agnósticas a las tareas. Esto requiere una escala y diversidad sin precedentes en los entornos de entrenamiento, potencialmente equivalente a decenas de miles de años de 'tiempo de tarea orientado al modelo'. Los autores proponen un nuevo paradigma, 'entrenamiento por replicación', donde las IAs duplican productos de software existentes o características para crear tareas de entrenamiento a gran escala y automáticamente puntuables. Si bien existen desafíos, este enfoque ofrece una vía clara para escalar el RL, potencialmente permitiendo que las IAs completen proyectos de software completos de forma autónoma.
Leer más