Modelos de raciocínio econômicos superam gigantes: Conquistando quebra-cabeças lógicos com aprendizado por reforço

2025-03-06
Modelos de raciocínio econômicos superam gigantes: Conquistando quebra-cabeças lógicos com aprendizado por reforço

Pesquisadores usaram aprendizado por reforço para treinar modelos de linguagem de código aberto menores e mais baratos que superaram o DeepSeek R1, o OpenAI o1 e o o3-mini, e quase igualaram o Anthropic Sonnet 3.7 em um jogo de raciocínio pesado chamado "Temporal Clue", sendo mais de 100 vezes mais baratos no tempo de inferência. Eles conseguiram isso por meio de um design cuidadoso de tarefas, ajuste de hiperparâmetros e o uso do algoritmo de otimização de política relativa de grupo (GRPO) e da biblioteca torchtune. Esta pesquisa demonstra o potencial do aprendizado por reforço para treinar modelos abertos de forma eficiente para tarefas de dedução complexa, mesmo com dados limitados, obtendo ganhos significativos de desempenho com apenas 16 exemplos de treinamento.

IA