방대한 데이터셋 CommonPool, 개인정보 유출

2025-07-31
방대한 데이터셋 CommonPool, 개인정보 유출

새로운 연구에 따르면 128억 개의 이미지-텍스트 쌍을 포함하는 방대한 데이터셋 CommonPool에 엄청난 양의 개인 정보가 포함되어 있는 것으로 드러났습니다. 신용카드, 운전면허증, 여권, 출생증명서, 이력서 등이 포함되어 있으며, 병력이나 인종과 같은 민감한 정보도 포함되어 있습니다. Stable Diffusion과 Midjourney를 포함한 많은 AI 모델의 학습에 사용되었으며, 200만 회가 넘는 다운로드 수를 고려할 때 이러한 개인 정보는 광범위하게 유포되었을 가능성이 높아 심각한 개인 정보 보호 위험을 초래합니다. 연구자들은 대규모 데이터셋 생성 시 데이터 프라이버시와 윤리 문제에 대한 더욱 세심한 고려를 촉구하고 있습니다.

AI