Leis de Escalonamento de IA: Além do Pré-treinamento, um Novo Paradigma Emerge
Este artigo explora a evolução das leis de escalonamento de IA, argumentando que elas se estendem além do pré-treinamento. O modelo o1 da OpenAI demonstra a utilidade e o potencial dos modelos de raciocínio, abrindo uma nova dimensão inexplorada para escalonamento. O artigo mergulha em técnicas como dados sintéticos, Otimização de Política Proximal (PPO) e aprendizado por reforço para melhorar o desempenho do modelo. Esclarece que o Claude 3.5 Opus da Anthropic e o Orion da OpenAI não foram fracassos, mas sim mudanças nas estratégias de escalonamento. Os autores enfatizam que o escalonamento abrange mais do que apenas aumentar dados e parâmetros; inclui computação em tempo de inferência, avaliações mais desafiadoras e inovações na arquitetura de treinamento e inferência.