Cloudflare⁠ワンクリックでAIボット⁠AIクローラーをブロックする設定を追加

Cloudflareは2024年7月3日、AI学習用のデータを収集するAIボットやAIスクレーパー、AIクローラーのアクセスをワンクリックの設定でブロックできる機能を実装したことを発表した。

Cloudflareは2023年に、robots.txtに従い動作するAIボットをブロックできる機能を発表している。しかしこのブロック機能は、ボット運営者がrobots.txtに正しくしたがったユーザーエージェントを使用している場合のみ機能する。ユーザーエージェントはボット運営者が簡単に変更して偽装することもできるので、すべてのAIボットを遮断することはできなかった。

この問題を解決するために、すべてのAIボットをワンクリックでブロックする新しい機能が追加された。これは、無料プランを含むすべてのCloudflareユーザが利用できる。有効にするにはCloudflareダッシュボードの[セキュリティ⁠⁠→⁠ボット]セクションに移動し、⁠AI スクレーパーとクローラー]のトグルをクリックするだけ。

AIスクレーパーとクローラーの設定
AIスクレーパーとクローラーの設定

これまでは、ライセンスのないコンテンツを使用してモデルをトレーニングしたり、Webサイトのデータを使用してRAGアプリケーションの推論を実行したりするような、悪質なAIボットのアクセスをすべて遮断することはできなかった。新しいブロック機能では、モデルトレーニングのためにWebを広範囲にスクレイピングしていると特定された不正なボットの新しいフィンガープリントが見つかると挙動がスコアリングされ、スコア値が一定値を越えたものをAIボットと判断してブロック情報が自動的に更新される。

この機能をアクティブにしてもブロックされないAIボットを発見した場合、Enterprise Bot Managementに登録されているユーザーは、不正動作に気付いたトラフィックのセグメントを選択するだけで、Bot Analytics経由でFalse Negative Feedback Loopレポートを送信できる。また、Cloudflareの顧客であれば誰でも、AIボットが許可なくサイトをスクレイピングしているという報告を送信できるGoogleフォームも用意されている。

アクセス数上位のAIクローラーは?

Cloudflareは今回の発表とともに、AIボットのアクセス傾向の調査結果についてもコメントしている。それによると、同社のユーザ―サイトへのアクセス数の多いAIクローラーは以下の4種であるという。

1位⁠Bytespider
TikTokで知られる中国企業ByteDanceのクローラー。LLM「Doubao」のトレーニング用と言われている。
2位⁠Amazonbot
Alexaの質問応答のコンテンツをインデックスするために使用されているとされる。
3位⁠ClaudeBot
Claudeチャットボットのトレーニングに使用される。最近リクエスト量が増加。
4位⁠GPTBot
OpenAIが管理。ChatGPTなどのAI駆動型製品の基盤となるLLMのトレーニングデータを収集。

おすすめ記事

記事・ニュース一覧