SourceHut、AIクローラーによるサーバー過負荷と闘う
2025-03-18

オープンソースのGitホスティングサービスSourceHutは、サーバーを過負荷にしている攻撃的なAIウェブクローラーの波と闘っています。同社は、Nepenthesと呼ばれる「タールピット」を含む対策を展開し、過剰なボットトラフィックのため、Google CloudやAzureなどの複数のクラウドプロバイダーをブロックしました。これは新しい問題ではなく、SourceHutは2022年にGoogleのGo Module Mirrorで同様の問題に直面しており、他のオープンソースプロジェクトも影響を受けています。一部のAI企業がrobots.txtを尊重することを約束している一方で、悪用は続いており、iFixit、Vercel、Diasporaなどのサイトが問題を報告しています。OpenAIのGPTBotなどの正当なクローラーになりすます洗練されたスプーフィングによって、状況はさらに複雑になっています。これにより、ログ分析が困難になり、AIクローラートラフィックの管理という増大する課題が浮き彫りになっています。広告指標会社DoubleVerifyは、2024年下半期に無効トラフィックが86%増加し、その16%がAIスクレイパーによるものであると報告しました。
開発
データスクレイピング