La Taille Toujours Croissante des Grands Modèles de Langage

Cet article retrace l'évolution de la taille des grands modèles de langage (LLM). De 1,61 milliard de paramètres pour GPT-2 à 2 000 milliards de paramètres pour Llama-4, la taille des modèles a augmenté de manière exponentielle. L'article détaille le nombre de paramètres, la taille des données d'entraînement et les caractéristiques architecturales des modèles clés, notamment les modèles denses et les modèles Mixture-of-Experts (MoE). L'émergence des architectures MoE a permis d'entraîner et d'utiliser des modèles de plus grande échelle. Cependant, la croissance de la taille des modèles a également entraîné de nouveaux défis, tels que les biais de données et l'interprétabilité des modèles. L'article conclut en explorant les orientations futures du développement des LLM et appelle à davantage de recherches pour se concentrer sur le développement de moteurs de continuation de texte purs, plutôt que de simplement rechercher des scores élevés aux tests de référence.