Webtagr - Resumen de noticias de tecnología

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Modelos de razonamiento económicos superan a los gigantes: Conquistando rompecabezas lógicos con aprendizaje por refuerzo

2025-03-06

Los investigadores utilizaron el aprendizaje por refuerzo para entrenar modelos de lenguaje de código abierto más pequeños y económicos que superaron a DeepSeek R1, OpenAI o1 y o3-mini, y casi igualaron a Anthropic Sonnet 3.7 en un juego de razonamiento complejo llamado "Pista temporal", siendo más de 100 veces más baratos en el tiempo de inferencia. Lo lograron mediante un diseño cuidadoso de las tareas, el ajuste de hiperparámetros y el uso del algoritmo de optimización de política relativa de grupo (GRPO) y la biblioteca torchtune. Esta investigación demuestra el potencial del aprendizaje por refuerzo para entrenar modelos abiertos de manera eficiente para tareas de deducción complejas, incluso con datos limitados, obteniendo ganancias significativas de rendimiento con tan solo 16 ejemplos de entrenamiento.

(openpipe.ai)