Aprendizaje por Refuerzo Sin Conexión Mejora el Razonamiento en Múltiples Pasos de los LLMs

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Aprendizaje por Refuerzo Sin Conexión Mejora el Razonamiento en Múltiples Pasos de los LLMs

2024-12-23

Los investigadores presentan OREO, un método de aprendizaje por refuerzo sin conexión diseñado para mejorar las capacidades de razonamiento en múltiples pasos de los modelos de lenguaje grandes (LLMs). Basado en el aprendizaje por refuerzo de entropía máxima, OREO aprende conjuntamente un modelo de política y una función de valor optimizando la ecuación de Bellman suave. Esto resuelve las limitaciones de la Optimización Directa de Preferencias (DPO) en el razonamiento en múltiples pasos, específicamente la necesidad de datos de preferencia emparejados extensos y el desafío de la asignación de crédito eficaz. Los experimentos demuestran la superioridad de OREO sobre los métodos de aprendizaje sin conexión existentes en los puntos de referencia que involucran razonamiento matemático y control de agentes encarnados.

(arxiv.org)

IA Razonamiento en Múltiples Pasos

uBlock Origin: Un bloqueador de contenido eficiente

JMAP cumple 10 años: Una década de protocolo de correo electrónico abierto