Leyes de Escalado de IA: Más Allá del Preentrenamiento, Emerge un Nuevo Paradigma
Este artículo explora la evolución de las leyes de escalado de IA, argumentando que se extienden más allá del preentrenamiento. El modelo o1 de OpenAI demuestra la utilidad y el potencial de los modelos de razonamiento, abriendo una nueva dimensión inexplorada para el escalado. El artículo profundiza en técnicas como datos sintéticos, Optimización de Política Proximal (PPO) y aprendizaje por refuerzo para mejorar el rendimiento del modelo. Aclara que Claude 3.5 Opus de Anthropic y Orion de OpenAI no fueron fracasos, sino cambios en las estrategias de escalado. Los autores enfatizan que el escalado abarca más que solo aumentar datos y parámetros; incluye cómputo en tiempo de inferencia, evaluaciones más desafiantes e innovaciones en la arquitectura de entrenamiento e inferencia.