クラウドフレア、AI学習用データの正確性向上のための新機能を導入
- •クラウドフレアがAI学習向けリダイレクト機能を導入し、最新かつ正確な文書データのみをAIモデルへ提供する仕組みを構築した。
- •検証済みAIクローラーに対し、Canonical Tag(正規URL指定タグ)を強制的に追従させることで、古い情報の読み込みを排除する。
- •Radar AI Insightsダッシュボードを強化し、HTTP Status Code(HTTPステータスコード)を分析することで、Web上の情報がクローラーにどう認識されているかを可視化する。
AIモデルが生成する情報の質は、学習に使用するデータの正確性に直結する。AIクローラーがWebを巡回する際、廃止されたAPIのドキュメントや古いプロジェクトページを読み込んでしまうことは珍しくない。これらのデータは、教育現場における古い教科書のようなものであり、AIが誤った、あるいは危険な助言を行う原因となる。
従来、開発者は「noindex」タグやCanonical Tagなどの指標を用いて検索エンジンを誘導してきた。しかし、こうした信号はAI学習用ボットに無視されることが多く、モデル内に不正確な情報が蓄積される要因となっている。いわゆる「ゴミを入れればゴミが出る(Garbage In, Garbage Out)」という問題は、AIの信頼性を揺るがす大きな障壁である。
この課題に対し、クラウドフレアは「AI学習向けリダイレクト」機能を導入した。これは、従来の推奨信号をHTTPステータスコードの301リダイレクトを用いて強制的に実行させる仕組みである。これにより、検証済みAIクローラーは、古くなったページに到達しても自動的に最新の正当なページへと誘導されることになる。
この手法の優れている点は、既存のWebインフラであるCanonical Tagをそのまま活用している点だ。開発者はサイト上のあらゆる古いパスに対して個別に設定を行う必要がなく、最低限のメンテナンスで済む。これは「緩やかな推奨」から「強制的なデータ衛生管理」へと大きく舵を切るものである。
さらに、Radar AI Insightsを通じて、サイト運営者は自社のコンテンツがクローラーにどう応答されているかを詳細に把握できる。HTTPステータスコードを確認することで、情報が適切に ingestion(取り込み)されているかを確認可能なのだ。これは、無秩序なスクレイピングが横行していた時代から、標準化されたポリシー主導のWeb環境への移行を象徴している。
AIが質問に回答するだけでなく、代行してタスクを実行するエージェント型へと進化する中で、最新かつ正確なデータの重要性は増すばかりだ。クラウドフレアの試みは、次世代AIが過去のデジタルな残骸ではなく、最新の確かな事実に基づいて構築される未来を支えるものと言える。