s1: Escalonamento Simples em Tempo de Teste para Raciocínio Robusto

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

s1: Escalonamento Simples em Tempo de Teste para Raciocínio Robusto

2025-02-03

Este artigo apresenta s1, um método simples de escalonamento em tempo de teste que alcança um desempenho de raciocínio robusto, igualando o o1-preview usando apenas 1.000 exemplos e restrição de orçamento. O método melhora significativamente o desempenho em modelos de linguagem grandes por meio de estratégias inteligentes em tempo de teste. O código e os dados são de código aberto para reprodutibilidade e exploração adicional.

(github.com)

IA desempenho de raciocínio escalonamento em tempo de teste

Coçar a coceira: a ciência surpreendente por trás disso

Jovens ligados a Musk infiltram agências governamentais dos EUA