Les Trois Temples de l'Entraînement des LLM : Pré-entraînement, Fine-tuning et RLHF

2025-06-10
Les Trois Temples de l'Entraînement des LLM : Pré-entraînement, Fine-tuning et RLHF

Dans le sanctuaire de montagne caché de Lexiconia, les anciens scribes suivent un entraînement dans un temple à trois parties : Le Hall des Origines, La Chambre des Instructions et L'Arène de Renforcement. Le Hall des Origines implique le pré-entraînement, où les scribes lisent de grandes quantités de texte pour apprendre les schémas du langage. La Chambre des Instructions est l'endroit où le fine-tuning a lieu, utilisant des textes sélectionnés pour guider les scribes vers de meilleurs résultats. L'Arène de Renforcement utilise l'apprentissage par renforcement avec rétroaction humaine (RLHF), avec des juges humains classant les réponses des scribes, récompensant les bonnes et pénalisant les mauvaises. Les scribes d'élite peuvent également être subtilement modifiés via des parchemins LoRA et des adaptateurs, ajustant les réponses sans entraîner à nouveau le modèle entier. Ce temple à trois ailes représente le processus complet d'entraînement des grands modèles de langage.