Aprendizado por Reforço Offline Melhora o Raciocínio em Múltiplas Etapas de LLMs
Pesquisadores apresentam OREO, um método de aprendizado por reforço offline projetado para aprimorar as capacidades de raciocínio em múltiplas etapas de modelos de linguagem grandes (LLMs). Baseado no aprendizado por reforço de entropia máxima, OREO aprende conjuntamente um modelo de política e uma função de valor otimizando a equação de Bellman suave. Isso resolve as limitações da Otimização Direta de Preferências (DPO) no raciocínio em múltiplas etapas, especificamente a necessidade de dados de preferência pareados extensos e o desafio da atribuição de crédito eficaz. Experimentos demonstram a superioridade do OREO sobre os métodos de aprendizado offline existentes em benchmarks envolvendo raciocínio matemático e controle de agente incorporado.