Aprendizado por Reforço Offline Melhora o Raciocínio em Múltiplas Etapas de LLMs

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Aprendizado por Reforço Offline Melhora o Raciocínio em Múltiplas Etapas de LLMs

2024-12-23

Pesquisadores apresentam OREO, um método de aprendizado por reforço offline projetado para aprimorar as capacidades de raciocínio em múltiplas etapas de modelos de linguagem grandes (LLMs). Baseado no aprendizado por reforço de entropia máxima, OREO aprende conjuntamente um modelo de política e uma função de valor otimizando a equação de Bellman suave. Isso resolve as limitações da Otimização Direta de Preferências (DPO) no raciocínio em múltiplas etapas, especificamente a necessidade de dados de preferência pareados extensos e o desafio da atribuição de crédito eficaz. Experimentos demonstram a superioridade do OREO sobre os métodos de aprendizado offline existentes em benchmarks envolvendo raciocínio matemático e controle de agente incorporado.

(arxiv.org)

IA Raciocínio em Múltiplas Etapas

uBlock Origin: Bloqueador de conteúdo eficiente

JMAP completa 10 anos: Uma década de protocolo de email aberto