Desvendando o R1-Zero: Alinhamento Eficiente de LLMs com o Framework Oat
2025-03-22
Pesquisadores lançaram um artigo, modelos e base de código revelando os mistérios do treinamento tipo R1-Zero. Eles desenvolveram o Oat, um framework de aprendizado por reforço LLM altamente modular e eficiente, e o utilizaram para treinar modelos tipo R1-Zero, como o Qwen2.5. O estudo descobriu que modelos base adequados e um algoritmo de aprendizado por reforço aprimorado (Dr. GRPO) são cruciais, evitando otimização tendenciosa de templates e conjuntos de perguntas incompatíveis. No final, eles alcançaram desempenho de ponta com apenas 27 horas de computação em 8 GPUs A100.
IA