ARC-AGI-2: El benchmark de AGI más fácil para humanos, más difícil para IA

2025-03-24
ARC-AGI-2: El benchmark de AGI más fácil para humanos, más difícil para IA

La competencia ARC Prize 2025 regresa con ARC-AGI-2, un benchmark de AGI significativamente más difícil para IA, pero que sigue siendo relativamente fácil para los humanos. Al centrarse en tareas sencillas para los humanos, pero difíciles para la IA, ARC-AGI-2 destaca las lagunas de capacidad que no se solucionan simplemente ampliando los modelos existentes. Con un premio de 1 millón de dólares, la competencia incentiva la innovación de código abierto para sistemas de IA eficientes y generales, con el objetivo de cerrar la brecha entre humanos e IA y lograr la verdadera AGI.

Leer más
IA

R1-Zero de DeepSeek: ¿Un camino hacia la AGI sin anotaciones humanas?

2025-01-29
R1-Zero de DeepSeek: ¿Un camino hacia la AGI sin anotaciones humanas?

DeepSeek lanzó los sistemas de razonamiento R1-Zero y R1, obteniendo puntuaciones comparables al sistema o1 de OpenAI (15-20%) en el benchmark ARC-AGI-1, superando significativamente el 5% del GPT-4o, que se basa únicamente en el escalado de LLMs. R1-Zero es particularmente notable por su dependencia exclusiva del aprendizaje por refuerzo, eliminando la necesidad de ajuste fino supervisado (SFT). Si bien R1-Zero presenta algunos desafíos en términos de legibilidad y mezcla de idiomas, su sólido rendimiento en matemáticas y codificación demuestra un razonamiento preciso en cadena de pensamientos sin SFT. Esto abre nuevas vías en la investigación de AGI, sugiriendo un futuro en el que el entrenamiento de AGI podría prescindir completamente de la anotación humana.

Leer más

El sistema o3 de OpenAI logra una puntuación innovadora en el benchmark ARC-AGI

2024-12-20
El sistema o3 de OpenAI logra una puntuación innovadora en el benchmark ARC-AGI

El nuevo sistema o3 de OpenAI, entrenado en el conjunto de entrenamiento público ARC-AGI-1, logró una puntuación innovadora del 75,7% en el conjunto de evaluación semipúblico, superando las limitaciones anteriores de los modelos de lenguaje grandes. Esto representa un avance significativo en las capacidades de IA, demostrando una adaptación a nuevas tareas nunca antes vista en la familia GPT. Si bien aún no ha alcanzado la Inteligencia Artificial General (AGI), el éxito del o3 destaca la importancia de la recombinación del conocimiento en tiempo de prueba y proporciona puntos de datos valiosos para la investigación continua de AGI. Todavía existen desafíos, ya que el o3 aún falla en algunas tareas simples, subrayando las complejidades de lograr la verdadera AGI.

Leer más
IA