Riesiger Datensatz CommonPool enthüllt sensible persönliche Informationen

2025-07-31
Riesiger Datensatz CommonPool enthüllt sensible persönliche Informationen

Eine neue Studie zeigt, dass CommonPool, ein riesiger Datensatz mit 12,8 Milliarden Bild-Text-Paaren, eine große Menge an sensiblen persönlichen Informationen enthält. Dies umfasst Kreditkarten, Führerscheine, Pässe, Geburtsurkunden, Lebensläufe und sogar sensible Details wie Krankenakten und ethnische Zugehörigkeit. CommonPool wurde zum Trainieren zahlreicher KI-Modelle verwendet, darunter Stable Diffusion und Midjourney. Die über 2 Millionen Downloads bedeuten, dass diese privaten Informationen wahrscheinlich weit verbreitet sind, was erhebliche Datenschutzrisiken darstellt. Die Forscher fordern mehr Aufmerksamkeit für den Datenschutz und ethische Überlegungen beim Erstellen großer Datensätze.