巨型数据集CommonPool泄露个人隐私信息

2025-07-31
巨型数据集CommonPool泄露个人隐私信息

一项新的研究发现,包含128亿图像文本对的公共数据集CommonPool,包含了大量个人隐私信息,包括信用卡、驾照、护照、出生证明、简历等,甚至还包含了个人病史、种族等敏感信息。CommonPool被用于训练许多AI模型,包括Stable Diffusion和Midjourney,其超过200万次的下载量意味着这些隐私信息可能已广泛传播,引发了严重的隐私风险。研究人员呼吁,在构建大型数据集时,应更加注重数据隐私和伦理问题。

AI