MarkdownはAIのクロールに影響なし。実験からも明らか

その検証のために、6つのウェブサイトの381ページを対象にしたランダム化比較実験を、Profound(プロファウンド)が実施した。

結論としては、ボットにMarkdown形式で提供されたページのアクセス数は、わずかな増加にとどまった(実験期間は3週間):

  • ページあたりの中央値でボット訪問数が約1回増加し、平均値では約16%高かったものの、全体として統計的に有意な差は見られなかった
  • もっとも多いChatGPT-UserのトラフィックはMarkdownページで全体で一貫して約20%の上昇を示したが、その効果は元々トラフィックの多いページに集中しており、統計的有意性には達しなかった

調査の詳細は次のとおりだ:

  • 全体的な結果:
    • Markdownページはボット訪問数の中央値が約1回増加
    • 平均トラフィックは約16%高いが、これはトラフィックの多い外れ値によるもの
    • 統計的に有意な差なし
  • ボットトラフィックの内訳:
    • ChatGPT-User: 全ボットトラフィックの約73%(最大勢力)
    • Meta/Facebook: 約20%
    • OAI-SearchBot: 約4%
    • ClaudeBot: 約2%
    • GPTBot: 約1%
  • ChatGPT-Userのトラフィック:※ChatGPTでユーザーからのリクエストを受けて動くボット
    • Markdownで約20%の上昇を確認(全体で一貫した傾向)
    • ただし、統計的有意性なし
    • 効果はトラフィックの第60パーセンタイル以上に集中

調査結果に対するプロファウンドの解釈は次のとおり:

  • LLMはすでに数十億のウェブページで学習しており、HTMLの解析能力が非常に高い。
  • Markdownのクリーンさは現時点では統計的に有意なクロール優位性につながっていない
  • データではMarkdownのほうが有利なように見えるが、観測された変動は自然なボットトラフィックのばらつきを反映している可能性がある。実験前の期間(1月13日〜18日)でも平均上昇率が+12%あり、優位性に見える変化はノイズである可能性が示唆される。

調査結果を踏まえて、プロファウンドは次のように結論づけている:

2026年後半にも改めて実験する予定で、結果が変わった場合は公表するとのことだ。

今回の調査概要は次のとおり:

  • 調査設計: 6サイト、381ページを対象としたランダム化比較実験
    • 189ページ:ボットには標準HTMLを提供
    • 192ページ:ボットにはクリーンなMarkdownを提供
    • 人間のユーザーには常にHTMLを表示
  • 実施期間: 2026年1月19日〜2月8日(3週間)