Modelos de raciocínio econômicos superam gigantes: Conquistando quebra-cabeças lógicos com aprendizado por reforço

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Modelos de raciocínio econômicos superam gigantes: Conquistando quebra-cabeças lógicos com aprendizado por reforço

2025-03-06

Pesquisadores usaram aprendizado por reforço para treinar modelos de linguagem de código aberto menores e mais baratos que superaram o DeepSeek R1, o OpenAI o1 e o o3-mini, e quase igualaram o Anthropic Sonnet 3.7 em um jogo de raciocínio pesado chamado "Temporal Clue", sendo mais de 100 vezes mais baratos no tempo de inferência. Eles conseguiram isso por meio de um design cuidadoso de tarefas, ajuste de hiperparâmetros e o uso do algoritmo de otimização de política relativa de grupo (GRPO) e da biblioteca torchtune. Esta pesquisa demonstra o potencial do aprendizado por reforço para treinar modelos abertos de forma eficiente para tarefas de dedução complexa, mesmo com dados limitados, obtendo ganhos significativos de desempenho com apenas 16 exemplos de treinamento.

(openpipe.ai)

Biblioteca de Álgebra Linear Rust: lin-alg

Moléculas-chave: Os arquitetos silenciosos dos ecossistemas