R1-Zero da DeepSeek: Um caminho para AGI sem anotação humana?
2025-01-29

A DeepSeek lançou os sistemas de raciocínio R1-Zero e R1, obtendo pontuações comparáveis ao sistema o1 da OpenAI (15-20%) no benchmark ARC-AGI-1, superando significativamente os 5% do GPT-4o, que se baseia apenas na escala de LLMs. O R1-Zero é particularmente notável por sua dependência exclusiva de aprendizado por reforço, eliminando a necessidade de ajuste fino supervisionado (SFT). Embora o R1-Zero apresente alguns desafios em termos de legibilidade e mistura de idiomas, seu forte desempenho em matemática e codificação demonstra raciocínio preciso em cadeia de pensamentos sem SFT. Isso abre novas vias na pesquisa de AGI, sugerindo um futuro em que o treinamento de AGI pode dispensar completamente a anotação humana.