Modelos de Razonamiento a Gran Escala: Colapso y Escalabilidad Contraria a la Intuición

2025-06-08
Modelos de Razonamiento a Gran Escala: Colapso y Escalabilidad Contraria a la Intuición

Los modelos de lenguaje de gran tamaño (LLM) recientes han generado modelos de razonamiento a gran escala (LRM), que generan rastros de razonamiento detallados antes de proporcionar respuestas. Si bien muestran mejoras en los puntos de referencia de razonamiento, sus capacidades fundamentales siguen siendo poco comprendidas. Este trabajo investiga LRM utilizando entornos de rompecabezas controlables, revelando un colapso completo de precisión más allá de un cierto umbral de complejidad. Sorprendentemente, el esfuerzo de razonamiento aumenta con la complejidad, luego disminuye a pesar de un presupuesto de tokens suficiente. En comparación con los LLM estándar, surgieron tres regímenes: (1) tareas de baja complejidad donde los LLM estándar superan a los LRM, (2) tareas de complejidad media donde los LRM muestran una ventaja, y (3) tareas de alta complejidad donde ambos fallan. Los LRM exhiben limitaciones en el cálculo exacto, no logran utilizar algoritmos explícitos y razonan de manera inconsistente. Este estudio destaca las fortalezas, limitaciones y preguntas cruciales en torno a las verdaderas capacidades de razonamiento de los LRM.