Riesiger Datensatz CommonPool enthüllt sensible persönliche Informationen
2025-07-31
Eine neue Studie zeigt, dass CommonPool, ein riesiger Datensatz mit 12,8 Milliarden Bild-Text-Paaren, eine große Menge an sensiblen persönlichen Informationen enthält. Dies umfasst Kreditkarten, Führerscheine, Pässe, Geburtsurkunden, Lebensläufe und sogar sensible Details wie Krankenakten und ethnische Zugehörigkeit. CommonPool wurde zum Trainieren zahlreicher KI-Modelle verwendet, darunter Stable Diffusion und Midjourney. Die über 2 Millionen Downloads bedeuten, dass diese privaten Informationen wahrscheinlich weit verbreitet sind, was erhebliche Datenschutzrisiken darstellt. Die Forscher fordern mehr Aufmerksamkeit für den Datenschutz und ethische Überlegungen beim Erstellen großer Datensätze.
KI
Datensatz