s1: Escalonamento Simples em Tempo de Teste para Raciocínio Robusto
2025-02-03
Este artigo apresenta s1, um método simples de escalonamento em tempo de teste que alcança um desempenho de raciocínio robusto, igualando o o1-preview usando apenas 1.000 exemplos e restrição de orçamento. O método melhora significativamente o desempenho em modelos de linguagem grandes por meio de estratégias inteligentes em tempo de teste. O código e os dados são de código aberto para reprodutibilidade e exploração adicional.