海外&国内SEO情報ウォッチ

昔のBaiduspiderよりひどい？悪質AIクローラーが世界のサイトをゲリラ攻撃【SEO情報まとめ】

生成AIがモーレツな人気だが、その裏で悪質なAI用クローラーが暴れていることをご存じだろうか。SEO関係者なら「Baiduspiderの行儀が悪かった」ことを覚えているかもしれないが、それを超えるひどさなのだという

鈴木謙一[執筆] 4/4 7:00 SEO | 事例／インタビュー

13 54 16

illustration by つきのあめだま

生成AIがモーレツな人気だが、その裏で悪質なAI用クローラーが暴れていることをご存じだろうか。SEO関係者なら「Baiduspiderの行儀が悪かった」ことを覚えているかもしれないが、それを超えるひどさなのだという。

とはいえAIに罪があるわけではない。アドビによる「AIからのトラフィックがどれだけ増えていて、コンバージョン率は非AIトラフィックと比べてどうか」などの調査データも、ピックアップで続けてお届けする。

ほかにも、「SEOの最終兵器ブランド力」「最新SEOスパム判定基準」「Twitter投稿のベスト曜日・時間帯」などなど、あなたのSEO力アップに役立つ情報を、今週もまとめてお届けする。

※次回お休みのおしらせ：このコーナーは隔週更新のため、本来ならば次回の更新は4月18日ですが、1週間お休みさせていただき、次回更新は4月25日の予定です。

昔のBaiduspiderよりひどい？悪質AIクローラーが世界のサイトをゲリラ攻撃
生成AI経由の米国小売サイトへのトラフィックが1,200%爆増⤴️
現代のSEOを勝ち抜くカギは「ブランド」力
検索スパムは「コンテンツ」ではなく「行為」で判定。不正な「手法」には相当に対処
2025年3月のオフィスアワー：新規ユーザーのアクセス減少、PDFをクロール対象外にしたい、サイトがアダルト判定を受ける条件など
X／Twitter投稿のベスト時間帯→水曜9:00【2025年版】
【Googlebot再入門その2】robots metaタグ／ヘッダー
「Google全クエリの15%は新しいもの」、AI時代も変わらないこの数字
特典を見返りにGoogleマップの口コミを集めた←グーグルポリシー違反だけじゃなく法律違反！
Googleニュースのパブリケーションページが完全自動化、パブリッシャーセンターでの管理は終了
視覚要素を加えた旅行プランをGoogle AI Overviewで作成する
Googleは本当に小規模・独立系のサイトを手助けしてくれるのか？

この記事の目次：

今週のピックアップ

昔のBaiduspiderよりひどい？悪質AIクローラーが世界のサイトをゲリラ攻撃
オープンソースコミュニティの防御策は？（Ars Technica）海外情報

ルールを守らない行儀の悪いAIクローラーのせいで、オープンソースプロジェクトが非常に迷惑を被っている。

こんな話題が飛び込んできた。オープンソース開発者たちが、「AIクローラーがインフラを圧倒する」という深刻かつ悪化する問題に直面しているというのだ。

ソフトウェア開発者のXe Iasoは、Amazonからの集中的なクローラートラフィックにより、Gitリポジトリサービスで繰り返し発生したダウンタイムに悩まされた。

当然のことながら、同社はrobots.txtの調整や既知のクローラーユーザーエージェントのブロックなどの標準的な防御対策を実施した。しかし、AIクローラーはユーザーエージェントを偽装し、個人向けIPアドレスをプロキシとして使うなどして、これらの保護を回避し続けているという。

LibreNewsの包括的な報告によると、一部のオープンソースプロジェクトでは現在、トラフィックの97%がAI企業のボットによるものだと推定できるという。このトラフィックの急激な増加は深刻な結果をもたらしている。次のような状況だ：

Fedora Pagureプロジェクトでは、AIボットトラフィックに対応しきれず、ブラジルからのアクセス全体をブロックした
KDEのGitLabインフラストラクチャは、AlibabaのIP範囲からのクローラートラフィックによって一時的にオフラインになった
GNOMEでは、総アクセスのうち実際に人間だったと確認できたのはわずか3.2%

Read the Docsプロジェクトは、AIクローラーをブロックすることでトラフィックが75%減少し、ネットワーク通信量が1日あたり800GBから200GBに減った。この削減により、ネットワークにかかる費用を月に約1,500ドル節約できたそうだ。

さまざまなプロジェクトのトラフィックログの分析により、クローラートラフィックの背後にいくつかの主要企業が特定された。AI企業のクローラーがトラフィックログに占める割合はこうなっていた：

OpenAI： 25%
Amazon： 15%
Anthropic： 4.3%

これらのクローラーは定期的にページを再訪している（たとえば6時間ごと）。一度きりのデータ取得ではなく、モデルの最新性を保つための継続的に情報収集しているようだ。また、git blameやgit log相当の、サーバー負荷の高いエンドポイントを対象にアクセスしてくる。

さらに許せないのは、多くの場合、robots.txtディレクティブを無視することだ。一部の企業は、検出を避けるためにクローラー情報の偽装までしているという。

オープンソースコミュニティはいくつかの防御策でAIクローラーの過剰なトラフィックに対抗している：

Anubis ―― ブラウザに計算パズルを解くことを要求する証明作業チャレンジシステム
Nepenthes ―― クローラーを偽のコンテンツの無限の迷路に閉じ込めるように設計された匿名ツール
AI Labyrinth ―― 許可されていないクローラーをAI生成ページにリダイレクトするCloudflareの商用ソリューション
ai.robots.txt ―― AIクローラーのリストと既製ブロックファイルを提供する共同プロジェクト

現在の状況は、AI生成コンテンツの急増と無秩序なデータ収集が、ネット上の重要な資源を脅かしていることを意味している。

オープンソースプロジェクトだけではなく、一般の大規模サイトでもAIクローラーの過度なトラフィックが問題になっている聞く。まるで、昔のBaiduspiderの行儀の悪さを超える悪行だ（少なくとも、BaiduspiderはUA名を偽装したりプロキシを使ったりはしなかったはずだ）。

このデジタルエコシステムの危機は、AI開発企業側が協調的な対応をしたり明確に規制したりしない限り、どんどん深刻化していく可能性がある。

★★★☆☆

SEOがんばってる人用（ふつうの人は気にしなくていい）
サーバー管理者に伝えましょう

グーグル検索SEO情報①

生成AI経由の米国小売サイトへのトラフィックが1,200%爆増⤴️
日本でも同様の傾向が起きている可能性も（Adobe Blog）海外情報

生成AIインターフェースを通じた米国小売サイトへの消費者トラフィックの劇的な増加をAdobe（アドビ）の最新レポートが明らかにした。小売と旅行、金融分野において生成AIが急速に影響力を拡大していることが、1兆件以上の米国小売サイト訪問データをAdobe Analyticsで分析した結果と、5,000人の米国消費者を対象とした調査から示されている。

生成AIを経由した小売サイトへのトラフィックが増加していることが、Adobe Analyticsのデータから見えてくる。

2024年11月1日から12月31日の間に、生成AIを経由した小売サイトへのトラフィックは前年比1,300%増加し、サイバーマンデーには前年比1,950%に達した。

この傾向は2025年2月にも続き、2024年7月比で1,200%増加した。2024年9月以降、2か月ごとにトラフィックが倍増しており、消費行動に構造的な変化が起きていることを示している。

トラフィック全体に占める割合は依然として小さいものの、成長速度は著しい。

サイト上での行動データでは、AI経由の訪問者は非AI経由の訪問と比べて次のような傾向を示した：

エンゲージメント率が8%高い
訪問あたりページ閲覧数が12%多い
直帰率が23%低い

購入コンバージョンとデバイス利用傾向、カテゴリ別傾向は次のとおりだ：

コンバージョン率 ―― AIトラフィックのコンバージョン率は他のチャネルより9%低いが、2024年7月の43%差から大幅に改善。これは、AIが主に購入前のリサーチ段階で活用されていることを示しているが、購入まで至るケースも増加している。
デバイス利用 ―― AI経由トラフィックの86%がPCからで、モバイルが主流の一般的なEコマース（PCは34%）とは対照的。複雑な対話にPCが好まれていることがわかる。
カテゴリ別傾向 ―― AI経由トラフィックのコンバージョン率が最も高いのは「家電」「ジュエリー」で、低いのは「衣料品」「家具」「食料品」。これは、テレビなど仕様が重要な商品の絞り込みにAIが役立っていることを示す。

消費者調査によれば、39%の回答者がオンラインショッピングに生成AIを使用した経験があり、53%が2025年に使用予定との結果だった。

オンラインショッピングにおけるAIの主な用途は次のとおりだという：

商品リサーチ： 55%
おすすめ商品探し： 47%
割引情報の検索： 43%
ギフトアイデアの発見： 35%
ユニークな商品の探索： 35%
買い物リストの作成： 33%

AIを利用した人の92%が「買い物体験が向上した」と回答し、87%が「高額または複雑な購入時にAIを利用したい」と回答している。

さらに、小売業界のみならず旅行および金融業界でもAI利用は拡大する兆しが、Adobe Analyticsのデータと消費者調査から見えてくるという。

旅行業界の傾向は次のとおり：

Adobe Analyticsデータ
- 2025年2月の旅行・ホスピタリティ関連サイトへのAIトラフィックは、2024年7月比で1,700%増。
- AI経由ユーザーは非AI経由に比べて直帰率が45%低く、より意欲的かつ情報を得た状態で訪問していることがうかがえる。
消費者調査データ
- 29%が旅行計画にAIを使用し、そのうち84%が「体験が向上した」と回答。
- AIの主な利用目的は次のとおり：
  - 情報収集（54%）
  - インスピレーション獲得（43%）
  - 現地グルメ情報（43%）
  - 交通手段計画（41%）
  - 旅程作成（37%）
  - 予算管理（31%）
  - 荷造りアドバイス（20%）

金融業界の傾向は次のとおり：

Adobe Analyticsデータ
- 銀行サイトへのAIトラフィックは、2024年7月比で1,200%増加。
- AI経由ユーザーは非AI経由に比べて45%長い時間サイトを閲覧していた。
消費者調査データ
- 27%が銀行・金融関連でAIを使用。
- AIの主な利用目的は次のとおり：
  - 口座の推薦（42%）
  - 投資戦略や用語の解説（40%）
  - パーソナル予算の作成（39%）
  - 税務上の影響の理解（35%）

全体を通して重要なポイントを簡潔にまとめると、次のようになる：

生成AI経由の米国小売サイトへのトラフィックは前年比で最大1,950%に増加し、消費行動の変化を示している。
AI利用者はサイト上でのエンゲージメントが高く、滞在時間やページ閲覧数が多く、直帰率が低い傾向がある。
AI経由トラフィックのコンバージョン率は非AI経由よりも低いが、その差は大幅に改善しており、購入までの信頼性が高まってきている。
AIとのやり取りは主にPCで行われており、一般的なモバイル主導のEC動向とは異なる傾向が見られる。
AIの利用は小売だけでなく、旅行や金融にも急速に広がっている。

米国のデータなので、日本の市場にそのまま当てはめることはできない。しかし、同じような傾向が見られる、あるいは近い将来に起こる可能性が十分にあるのではないだろうか。

★★★★☆

すべてのWeb担当者必見！

現代のSEOを勝ち抜くカギは「ブランド」力
ニッチなジャンルでも、そこでブランド確立すればいい（ボーディー SEO）国内情報

SEOにおけるブランド認知の重要性が、ここ1年～2年で高まっている。事実、グーグルのダニー・サリバン氏も米ニューヨークで先日開催された検索のイベントで、「ブランドとしてユーザーに認知されることが重要」だとコメントしたそうだ。

ボーディーの住太陽氏は、早い段階からブランド確立を提唱してきた人物だ。

ブランドがなぜSEOにおいて重要なのか
ブランド認知を高めるにはどうすればいいのか

といったことを詳細に解説する記事を、住氏が公開してくれた。

具体的な「ブランドシグナル」や「ブランディング施策」なども含めて解説するしっかりした内容で、次のような目次で構成されている：

ボーディーの住太陽氏による記事「Googleは「ブランド優遇」ブランディングがSEOの成功を導く」の目次

「ブランド」といっても、大手企業のように世界規模でブランド認知される必要はない。自社ビジネスが属する業界のなかでのブランドを確立することが目標だ。ニッチなジャンルでも、その領域内でブランドになれればいい。

たとえば、SEOを学ぶなら「海外SEO情報ブログ」を真っ先に思い浮べてもらえるようになることを目指す。

一見するとSEOから縁遠そうなトピックだが、中長期的に見ればこれがSEOの最適解になる場合も多いはずだ。ぜひ一読して自社での展開を考えてみてほしい。

★★★★☆

すべてのWeb担当者必見！

検索スパムは「コンテンツ」ではなく「行為」で判定。不正な「手法」には相当に対処
スパムポリシーのドキュメントにも反映（グーグル検索セントラル）国内情報

グーグルのウェブ検索のスパムに関するポリシーの冒頭の一文が更新された。

以前はこうだった：

Google 検索の文脈では、スパムとはユーザーを欺いたり、ランキングを上げる目的で Google の検索システムを操作したりするように作られたウェブコンテンツを指します。

現在は次のようになっている：

Google 検索の文脈では、スパムとはユーザーを欺いたり、Googleの検索システムを操作してたりしてコンテンツを上位表示させるために用いられる手法を指します。

筆者注：この記事を書いている時点では日本語ドキュメントは未更新。更新後の翻訳は筆者による

微妙な更新なのだが、スパムの判定対象は、以前の定義では「コンテンツ」だった。今は「手法」が判定対象だ。できあがったコンテンツがどのようなものであるかは問題ではなく、不正な手法によって作成されたものであればスパムとして判定されうると解釈できる。

2025年3月20日に米ニューヨークで開催されたSearch Central Liveで、ダニー・サリバン氏はこの変更について触れたそうだ。

BTW, @searchliaison emphasized that Google's spam policies are based on curbing abusive "practices" than than types of content. This change to the doc makes sense based on that. See my photo from the Google Search Live event last week in NYC. https://t.co/lpg3xc21ao pic.twitter.com/zqw3bfAOT9
— Glenn Gabe (@glenngabe) March 26, 2025

スライドには次のように書かれている。

スパムコンテンツよりもスパム行為
グーグルのスパムポリシーは、コンテンツの種類ではなく、不正な行為を抑制することに基づいている。この点をより明確にするため、グーグルは昨年スパムポリシーのページを改訂した。そして今後もさらなる取り組みを続ける予定である。

※翻訳は筆者による

今回のドキュメント更新はこの方針に沿ったものであろう。

★★★☆☆

SEOがんばってる人用（ふつうの人は気にしなくていい）

2025年3月のオフィスアワー：新規ユーザーのアクセス減少、PDFをクロール対象外にしたい、サイトがアダルト判定を受ける条件など
PEプログラムの紹介あり（#Google検索オフィスアワー on YouTube）国内情報

2025年3月のグーグル検索オフィスアワーがYouTubeに公開された。今回、あんな氏が回答した質問は次のとおりだ。

新規ユーザーのアクセス減少（5:04）
サイト内で生成されていないスパム URL（6:25）
各種ツールのデータの不一致（7:22）
サイトがインデックスされない（8:51）
ページソース内のエンコード処理（11:06）
PDF ファイルをクロール対象外にしたい（11:47）
検索結果のサイト名表示（13:51）
サービス名が似たサイトの関連する質問に表示（14:59）
公開 URL テストなど一部機能が実行できない（17:50）
サイトがアダルト判定を受ける条件の詳細（19:04）
HTTP プロトコルだと閲覧できないサイト（20:51）

自分の管理サイトに関係しそうな質問があれば回答を確認しておくといい。タイムラインはその質問が始まる場所にリンクしてある。

手前味噌になるが、Q&Aのあとに、検索セントラルヘルプコミュニティのプロダクトエキスパートである高野氏と筆者が、グーグルプロダクトエキスパートプログラムを紹介している。プログラムの内容説明に加えて新しいプロダクトエキスパートの募集も兼ねている。動画の21:57から始まる部分なので、こちらもぜひ視聴してほしい。