مجموعة البيانات الضخمة CommonPool تُسرب معلومات شخصية حساسة
2025-07-31
تكشف دراسة جديدة أن CommonPool، وهي مجموعة بيانات ضخمة تحتوي على 12.8 مليار زوج من الصور والنصوص، تحتوي على كميات هائلة من المعلومات الشخصية الحساسة. وهذا يشمل بطاقات الائتمان، ورخص القيادة، وجوازات السفر، وشهادات الميلاد، والسير الذاتية، وحتى تفاصيل حساسة مثل السجلات الطبية والعرق. وقد تم استخدام CommonPool لتدريب العديد من نماذج الذكاء الاصطناعي، بما في ذلك Stable Diffusion وMidjourney، و أكثر من مليوني عملية تنزيل لـ CommonPool تعني أن هذه المعلومات الخاصة من المحتمل أن تكون منتشرة على نطاق واسع، مما يشكل مخاطر كبيرة على الخصوصية. يحث الباحثون على إيلاء المزيد من الاهتمام لخصوصية البيانات والاعتبارات الأخلاقية عند إنشاء مجموعات بيانات واسعة النطاق.
الذكاء الاصطناعي