Lois d'Échelle de l'IA : Au-delà du Pré-entraînement, un Nouveau Paradigme Émerge
Cet article explore l'évolution des lois d'échelle de l'IA, en arguant qu'elles dépassent le pré-entraînement. Le modèle o1 d'OpenAI démontre l'utilité et le potentiel des modèles de raisonnement, ouvrant une nouvelle dimension inexplorée pour l'échelle. L'article approfondit des techniques telles que les données synthétiques, l'Optimisation de Politique Proximale (PPO) et l'apprentissage par renforcement pour améliorer les performances du modèle. Il clarifie que Claude 3.5 Opus d'Anthropic et Orion d'OpenAI n'étaient pas des échecs, mais plutôt des changements de stratégies d'échelle. Les auteurs soulignent que l'échelle englobe plus que simplement l'augmentation des données et des paramètres ; elle inclut le calcul en temps d'inférence, des évaluations plus difficiles et des innovations dans l'architecture d'entraînement et d'inférence.