Extraction de données d'entraînement des LLM : inversion de la compression des connaissances
Des chercheurs ont développé une technique permettant d'extraire des ensembles de données structurés à partir de grands modèles de langage (LLM), inversant ainsi le processus par lequel les LLM compressent de grandes quantités de données d'entraînement dans leurs paramètres. La méthode utilise une exploration hiérarchique des sujets pour parcourir systématiquement l'espace de connaissances du modèle, générant des exemples d'entraînement qui capturent à la fois les connaissances factuelles et les schémas de raisonnement. Cette technique a été appliquée avec succès à des modèles open source tels que Qwen3-Coder, GPT-OSS et Llama 3, générant des dizaines de milliers d'exemples d'entraînement structurés. Ces ensembles de données ont des applications dans l'analyse des modèles, le transfert de connaissances, l'augmentation des données d'entraînement et le débogage des modèles. Cette recherche ouvre de nouvelles voies pour l'interprétabilité des modèles et le transfert de connaissances entre les modèles.