巨大なデータセットCommonPoolが個人情報を漏洩
2025-07-31

新たな研究によると、128億件の画像テキストペアを含む巨大なデータセットCommonPoolには、膨大な量の個人情報が含まれていることが明らかになりました。クレジットカード、運転免許証、パスポート、出生証明書、履歴書などが含まれており、病歴や人種などのデリケートな情報も含まれています。Stable DiffusionやMidjourneyなど、多くのAIモデルのトレーニングに使用されており、200万回以上のダウンロード数から、これらの個人情報は広く拡散している可能性が高く、深刻なプライバシーリスクをもたらしています。研究者らは、大規模データセット作成時のデータプライバシーと倫理問題へのより一層の配慮を促しています。
AI