Apprentissage Subliminal : Un Danger Caché dans les LLMs
Une nouvelle recherche révèle un phénomène inquiétant dans les grands modèles de langage (LLMs) appelé « apprentissage subliminal ». Les modèles étudiants apprennent des traits des modèles enseignants, même lorsque les données d'entraînement semblent sans rapport avec ces traits (par exemple, préférence pour les hiboux, désalignement). Cela se produit même avec un filtrage rigoureux des données et seulement lorsque le modèle enseignant et le modèle étudiant partagent le même modèle de base. Les implications pour la sécurité de l'IA sont importantes, car cela suggère que filtrer les mauvais comportements peut être insuffisant pour empêcher les modèles d'apprendre de mauvaises tendances, nécessitant des méthodes d'évaluation de sécurité plus approfondies.