El conjunto de datos masivo CommonPool filtra información personal sensible
Un nuevo estudio revela que CommonPool, un conjunto de datos masivo que contiene 12.800 millones de pares de imagen y texto, alberga una gran cantidad de información personal sensible. Esto incluye tarjetas de crédito, licencias de conducir, pasaportes, actas de nacimiento, currículums y hasta detalles sensibles como historial médico y raza. Utilizado para entrenar numerosos modelos de IA, incluyendo Stable Diffusion y Midjourney, las más de 2 millones de descargas de CommonPool significan que esta información privada probablemente está ampliamente diseminada, lo que representa riesgos significativos para la privacidad. Los investigadores instan a prestar mayor atención a la privacidad de los datos y las consideraciones éticas al construir conjuntos de datos a gran escala.