Le goulot d'étranglement de l'exploration dans les LLM : la prochaine frontière de la collecte d'expériences
Le succès des grands modèles de langage (LLM) repose sur un pré-entraînement massif sur de grandes quantités de données textuelles, une ressource qui finira par s'épuiser. L'avenir de l'IA évoluera vers une « ère de l'expérience », où la collecte efficace du bon type d'expérience bénéfique pour l'apprentissage sera cruciale, plutôt que de simplement empiler des paramètres. Cet article explore comment le pré-entraînement résout implicitement une partie du problème de l'exploration et comment une meilleure exploration conduit à une meilleure généralisation. L'auteur propose que l'exploration se compose de deux axes : « échantillonnage du monde » (choix des environnements d'apprentissage) et « échantillonnage de trajectoire » (collecte de données au sein des environnements). La future mise à l'échelle de l'IA doit optimiser la densité d'information sur ces deux axes, en allouant efficacement les ressources de calcul au lieu de simplement rechercher l'échelle des paramètres ou le volume des données.