Modelos de razonamiento económicos superan a los gigantes: Conquistando rompecabezas lógicos con aprendizaje por refuerzo
Los investigadores utilizaron el aprendizaje por refuerzo para entrenar modelos de lenguaje de código abierto más pequeños y económicos que superaron a DeepSeek R1, OpenAI o1 y o3-mini, y casi igualaron a Anthropic Sonnet 3.7 en un juego de razonamiento complejo llamado "Pista temporal", siendo más de 100 veces más baratos en el tiempo de inferencia. Lo lograron mediante un diseño cuidadoso de las tareas, el ajuste de hiperparámetros y el uso del algoritmo de optimización de política relativa de grupo (GRPO) y la biblioteca torchtune. Esta investigación demuestra el potencial del aprendizaje por refuerzo para entrenar modelos abiertos de manera eficiente para tareas de deducción complejas, incluso con datos limitados, obteniendo ganancias significativas de rendimiento con tan solo 16 ejemplos de entrenamiento.
Leer más