Webtagr - Sumário de Notícias de Tecnologia

ARC-AGI-2: O benchmark de AGI mais fácil para humanos, mais difícil para IA

2025-03-24

A competição ARC Prize 2025 está de volta com o ARC-AGI-2, um benchmark de AGI significativamente mais difícil para IA, mas que permanece relativamente fácil para humanos. Ao focar em tarefas simples para humanos, mas difíceis para IA, o ARC-AGI-2 destaca lacunas de capacidade que não são resolvidas simplesmente pela ampliação de modelos existentes. Com um prêmio de US$ 1 milhão, a competição incentiva a inovação de código aberto para sistemas de IA eficientes e gerais, com o objetivo de preencher a lacuna entre humanos e IA e atingir a verdadeira AGI.

R1-Zero da DeepSeek: Um caminho para AGI sem anotação humana?

2025-01-29

A DeepSeek lançou os sistemas de raciocínio R1-Zero e R1, obtendo pontuações comparáveis ao sistema o1 da OpenAI (15-20%) no benchmark ARC-AGI-1, superando significativamente os 5% do GPT-4o, que se baseia apenas na escala de LLMs. O R1-Zero é particularmente notável por sua dependência exclusiva de aprendizado por reforço, eliminando a necessidade de ajuste fino supervisionado (SFT). Embora o R1-Zero apresente alguns desafios em termos de legibilidade e mistura de idiomas, seu forte desempenho em matemática e codificação demonstra raciocínio preciso em cadeia de pensamentos sem SFT. Isso abre novas vias na pesquisa de AGI, sugerindo um futuro em que o treinamento de AGI pode dispensar completamente a anotação humana.

Sistema o3 da OpenAI atinge pontuação inovadora no benchmark ARC-AGI

2024-12-20

O novo sistema o3 da OpenAI, treinado no conjunto de treinamento público ARC-AGI-1, atingiu uma pontuação inovadora de 75,7% no conjunto de avaliação semi-privado, superando as limitações anteriores dos modelos de linguagem grandes. Isso representa um avanço significativo nas capacidades de IA, demonstrando uma adaptação a novas tarefas nunca antes vista na família GPT. Embora ainda não tenha atingido a Inteligência Artificial Geral (AGI), o sucesso do o3 destaca a importância da recombinação do conhecimento em tempo de teste e fornece pontos de dados valiosos para a pesquisa contínua de AGI. Ainda existem desafios, pois o o3 ainda falha em algumas tarefas simples, sublinhando as complexidades de alcançar a verdadeira AGI.