L'énorme jeu de données CommonPool divulgue des informations personnelles sensibles

2025-07-31
L'énorme jeu de données CommonPool divulgue des informations personnelles sensibles

Une nouvelle étude révèle que CommonPool, un immense jeu de données contenant 12,8 milliards de paires image-texte, recèle d'énormes quantités d'informations personnelles sensibles. Cela inclut des cartes de crédit, des permis de conduire, des passeports, des actes de naissance, des CV, et même des détails sensibles comme les antécédents médicaux et l'origine ethnique. Utilisé pour entraîner de nombreux modèles d'IA, dont Stable Diffusion et Midjourney, les plus de 2 millions de téléchargements de CommonPool signifient que ces informations privées sont probablement largement diffusées, ce qui pose des risques importants pour la vie privée. Les chercheurs appellent à une plus grande attention à la confidentialité des données et aux considérations éthiques lors de la construction de jeux de données à grande échelle.