Cloudflareは2024年12月10日、ユーザのサイトを訪れるAI企業やサービスによるボット、クローラーのアクセス状況を監視し、アクセスの制御を行うサービス「AI Audit」( AI監査)の開始をアナウンスした。
通常のWebサイトはrobots.txtという設定ファイルの記述で、訪問するボットやクローラーの挙動を制御している。検索エンジンやAIサービスなどのボットはサイトのrobots.txtを参照し、Robots Exclusion Protocolに基づいてどの部分・場合にアクセスできるかを判断する。
あるオンラインニュースサイトのrobots.txtの記述例:ChatGPT、Anthropic AI、Google Gemini、ByteDanceのBytespiderによるコンテンツのクロールを許可しないポリシーを表している。
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
ただしRobots Exclusion Protocolのコンプライアンスはボット/クローラーの制作元のいわば良識に委ねられており、サイトの想定しないアクセスが発生するケースも散見される。
AI AuditではユーザサイトのWebプロパティからrobots.txtファイルを取得して解析し、そのルールをプロパティで確認されているAIボットのトラフィックと照合、表示する。概要テーブルには、すべてのパスで確認されるすべてのボットのリクエスト数と違反数が集約されて表示され、Robots.txt列にマウスを移動すると、各ボットの定義済みポリシーが表示される。さらに違反を発見した場合、個別にフィルタリングすることもできる。
また、概要テーブルの上部にある[Enforce robots.txt rules]ボタンをクリックすると、robots.txtでAIボット用に定義されたルールがCloudfrareのファイアウォールルールに自動的に変換され、WAF設定画面にリダイレクト、ネットワークレベルでrobots.txtポリシーを適用できる。
AI AuditはCloudflareのすべてのユーザーが利用可能で、ダッシュボードにログインして、AIサービスからのボットトラフィックの監査とrobots.txtのルール適用を開始することができる。