L'infrastructure de Wikimedia assiégée : le tsunami de scraping de données IA
Depuis début 2024, la demande de contenu Wikimedia, notamment les 144 millions d'images et de fichiers sur Wikimedia Commons, a explosé. Cette hausse est due aux modèles d'IA qui s'entraînent sur des données ouvertes, entraînant une augmentation de 50 % de la bande passante utilisée par les bots de scraping. Cette charge sans précédent sollicite l'infrastructure de Wikimedia, provoquant des ralentissements et une augmentation des coûts. Étonnamment, 65 % du trafic coûteux proviennent de bots, disproportionné par rapport à leurs 35 % de parts de vues de pages totales. Wikimedia appelle à une utilisation responsable des données, encourageant les développeurs à utiliser les canaux d'accès supportés pour assurer la pérennité de ses ressources de connaissances gratuites.