Leyes de Escalado de IA: Más Allá del Preentrenamiento, Emerge un Nuevo Paradigma

2024-12-12

Este artículo explora la evolución de las leyes de escalado de IA, argumentando que se extienden más allá del preentrenamiento. El modelo o1 de OpenAI demuestra la utilidad y el potencial de los modelos de razonamiento, abriendo una nueva dimensión inexplorada para el escalado. El artículo profundiza en técnicas como datos sintéticos, Optimización de Política Proximal (PPO) y aprendizaje por refuerzo para mejorar el rendimiento del modelo. Aclara que Claude 3.5 Opus de Anthropic y Orion de OpenAI no fueron fracasos, sino cambios en las estrategias de escalado. Los autores enfatizan que el escalado abarca más que solo aumentar datos y parámetros; incluye cómputo en tiempo de inferencia, evaluaciones más desafiantes e innovaciones en la arquitectura de entrenamiento e inferencia.