中規模から大規模なウェブサイトに影響する、重大なSEO課題である「インデックスの肥大化」を深く掘り下げよう。まずは「トラフィックをもたらすことなくインデックスの割り当てを消費しているURL」を見つけ、次の2つの違いを理解する:
- クロールバジェット
- インデックスの肥大化
そして、問題を解決する実践的な解決法を学んでほしい。今回のホワイトボード・フライデー動画は、コンテンツの統合からURLの適切な処理まで、サイトのインデックスの健全性を評価して効果的な改善措置を講じるのに役立つ。
Mozファンのみんな、今回は「インデックスの肥大化」を取り上げる。
これは本当によくある問題で、特に大規模サイト、ときには中規模サイトにも影響する。そうした規模のサイトの運営に関わっている人なら、絶対に調べておくべきことだと思う。少なくとも一度は調べておくべきなのは間違いない。とても多くのサイトに影響を与えるため、自分にも影響があるか確認しておく価値はある。
僕を含む多くのSEO担当者は長期間にわたり、さらにごく最近も、これに関して非常に良い結果を出している。それにもかかわらず、業界ではあまり体系化や議論が行われていないように思う。それにはいくつか理由があり、詳しくは後で取り上げる。
インデックスの肥大化を理解する
詳細に入る前に、まずこれを説明しておきたい。

この図は背景を知ってもらうためのもので、理解しておけばこの後の話がわかりやすくなるだろう。
いちばん外側の赤色のボックスは、サイトの「すべてのURL」を表す。存在する可能性のあるすべてのURLを示しており、誰も試したことのないパラメータといったものも含め、200レスポンスコードと有効なページを返す最大限可能なURLの集合だ。
その中にある青色のボックスは、さらに小さな部分集合だ。この下位の階層は、「グーグルが発見したURL」だ。まだクロールしていないURLかもしれないし、インデックス登録していないURLかもしれないし、インデックス済みのURLかもしれない。いずれにせよグーグルは、未知のURLを見つけると、そのURLが存在することを認識する。青色のボックスが示しているのは、そうしたURLの集合だ。
「赤色のボックス」と「青色のボックス」に大きな開きがある場合は、クロールバジェットに何らかの問題があることを示している可能性がある。これは解決すべき問題の1つではあるが、この記事では取り上げない。
発見されたURLがあったとしても、インデックス登録されているとは限らない。したがって、インデックスされたURLの集合はさらに小さいものになる(黄色のボックス)。「発見されたがインデックスされていない」URLの数が多い場合、その理由として考えられるものには、次のようなものがある:
- グーグルは「そのページが重要でない」と、他のシグナルに基づいて判断しているのかもしれない
- 君自身がインデックス登録を許可していないのかもしれない(noindexタグやHTTPヘッダーでのnoindex指示)
ここの問題についても、今回は特に取り上げない。
それから、インデックス登録されているページに対して、“少なくない数”のトラフィックをもたらすページがある(それ以外は「インデックスされているがトラフィックをほとんどもたらさないページ)。「少なくない数のトラフィック」の定義はサイトによって異なるだろう。君自身の考えもあるかもしれない。しかし、次の2つの差が大きい場合、インデックスの肥大化という問題がある可能性を示している:
- インデックスされているURLの数
- ゼロ以外の有意なトラフィックを得ているURLの数
まさにそれこそ僕が今回話したい内容だ。
インデックスの肥大化ではないもの
詳しく見ていく前に、誤解を招かないためにも、ここで言及したいくつかの点について少し明確にしておきたい。
まず、ここで言っているのは「クロールバジェット」の話ではない。
クロールバジェットが問題になるのは「グーグルがまったくクロールしないURLがたくさんある」場合だ。その原因とし考えられるのは、次のようなものがある:
- 新しいURLが増えるスピードが速すぎる
- サイト上に膨大な数のURLがある
たとえばニュースサイトや、ときには大規模な掲示板サイトに影響することがある。
また「カニバリゼーション」の話でもない。ただし、これは関連する概念だ。「インデックス化されているがトラフィックをもたらしていない」ページが大量にある場合も多いが、それはトピックが似すぎているからだ。理論的には、3ページしかないサイトだったとしても、3ページの内容がほぼ同じであれば、カニバリゼーションの問題が生じる可能性がある。ただ、これは今回のテーマではない。
これから話すのは、もっと大きな規模の問題だ。具体的には、先ほど説明した「インデックス登録されたURL」(黄色のボックス)と「少なくない数のトラフィックをもたらすURL」(緑のボックス)の差分の大きさに関する話だ。インデックスされているすべてのURLのうち、次のようなURLは大量にあるだろうか?
- グーグルから有意な数のトラフィックが来ていない
- グーグルが検索結果に表示してくれていない
インデックスの肥大化は、なぜ問題なのか
次のように思う人もいるだろう:
なぜ気にする必要があるのか? なぜこれが問題なのか? これがあるから何だというのだろう?
「インデックスされているがトラフィックがまったくない」ページがたくさんあるからといって、何が大問題なのか?
まず、次の3つについて理論を立てる必要がある:
- グーグルがこれらのページをどのように扱うのか
- なぜそのように動作するのか
- なぜそのような結果になるのか
これは主に業界内での経験に基づいている。グーグルが特にこれまでに明文化しているものではない。しかし、トラフィックをまったく得ていないページがたくさんあると、品質シグナルが送られ、そのシグナルがサイト(あるいは間違いなくサイトの一部)に影響するのではないかと見られている。
したがって、次のようなページが大量にあり、ユーザーが検索結果に戻ってしまう場合は、サイト全体に影響する可能性がある:
- 内容が非常に薄いページ
- 何の内容もないページ
- クリックしても疑問に答えてくれず、ほぼ無意味なページ
この点が、この問題を気にすべき理由の1つかもしれない。
この問題を気にするべきもう1つのポイントは、先ほど触れた「カニバリゼーション」だが、それ以外にもテクニカルSEOで問題がいくつかある可能性がある。サイト上で大量のURLを生成していて、それらがインデックス化されている場合、昔ながらのSEOの要因PageRankを考えると、PageRankがサイト上のすべてのページに分散されて大きな損失が生じる。こうした分散したPageRankを主要なページに統合すれば、検索トラフィックを改善できるはずだ。
この記事は、前後編の2回に分けてお届けする。後編に当たる次回は、インデックスの肥大化が起こる原因と対処法について説明する。
(後編は12/22公開予定)
