حروب كشط بيانات نماذج اللغة الكبيرة: معركة حقوق النشر ورد الفعل

أدتّ تطوّر طريقة حصول نماذج اللغة الكبيرة (LLMs) على بيانات التدريب إلى اندلاع معارك حقوق نشر شديدة. في البداية، افتقر كشط البيانات إلى الاعتبارات الأخلاقية والقانونية. ومع ذلك، مع تسويق تطبيقات مثل ChatGPT، أصبحت قضايا حقوق النشر أكثر بروزًا، مما أدى إلى مقاضاة المؤلفين والناشرين لشركات الذكاء الاصطناعي. بدأت شركات مثل OpenAI في إبرام اتفاقيات مع الناشرين للوصول إلى البيانات، لكن كشط البيانات استمر بلا هوادة، بل أصبح أكثر جرأة. ردًا على هذا إساءة استخدام البيانات، أدخلت Cloudflare وشركات أخرى أدوات مضادة لكشط البيانات، وظهر معيار RSL، مما يسمح للمواقع الإلكترونية بتحديد أسعار الوصول إلى البيانات. هذا يمثل رد فعل استباقيًا من مالكي المواقع الإلكترونية، وقد تجبر شركات الذكاء الاصطناعي في النهاية على دفع ثمن البيانات، مما يغير نظام الحصول على البيانات.