検索エンジンのインデックス化率を高めるために、一覧ページのナビゲーションを工夫してみた(検証あり)
簡単な前振り……
みんな知っているように、検索エンジンのロボットは人気のあるページをより頻繁に訪問する。人気のページとはつまり、リンクの数(サイトの内部と外部の両方から集めているリンクの数)が一番多いページということだ。たいていの場合、Webサイトの構造と被リンク数によって表されるページの人気の間には相関関係がある。
- トップページは一番多くの被リンクを集める。
- 第1層(たとえば製品カテゴリなど)や第2層、第3層にあるページは、被リンク数がトップページより少ない。
- 重要性が最も低いのは、深い部分にあるページだ(記事やクラシファイド、製品ページなど)。
ここで言うページの「重要性」とWebサイトの構成の関係については、ランドが投稿した『Diagrams for Solving Crawl Priority & Indexation Issues』(クロールの優先順位とインデックス化の問題を解決するための図解)という記事で説明されている。
重要なページはインデックス化の優先順位も変わってくるわけだが、これについてもランドがきれいに図解していた。
紫色の部分が、最も多くの外部リンクを集めているページだ。見てわかるとおり、紫色の部分に近いページは人気の一部を受け取り、それをさらに周囲へと受け渡している(ピンク色の部分)。その他のページはすべて、スパイダーがクロールを開始するポイントから遠すぎる。つまり、インデックス化される確率はずっと低くなるわけだ。
たくさんのコンテンツを持つクラシファイド広告サイトの場合、上の図にサブカテゴリのリストや検索結果ページも含まれるはずだ。そうしたページは、メインカテゴリのページほど重要でないのは明白だが、そこがインデックス化されているかどうかは、その中味(広告の詳細ページ)のインデックス化にも付加的な影響を与える。いわゆるプレミアム広告(有料で他の広告よりも強調して表示される広告)がリストの先頭に並んでいる場合には、これが特に重要だ。プレミアム広告は、普通のクラシファイド広告に比べて変更されることが少ないからだ。
テストの前に……
こうした理屈を踏まえて、僕らは実際のサイトでどうなっているのかを調べることにした。今回分析した『http://www.morusek.pl』(ペットや動物関連のクラシファイド広告を扱うポーランドのポータルサイト)は、インデックス化されたページの数が合計で10万を超えるWebサイトだ。「site:」と「inurl:」を組み合わせたクエリを用いて、インデックス化されたクラシファイド広告リストのページ数をチェックした。検索式は、
http://www.google.pl/search?q=site%3Awww.morusek.pl+inurl%3A%22%2F0%2F%22+inurl%3Aogloszenia
となる(クラシファイド広告はポーランド語では「ogloszenia」)。
最初の結果は以下の通り。
分析を先に進めるために、表中で番号1のページ(カテゴリ別の一覧表示で最初に表示される一覧ページ)を除外した。これらのページの数字は、その時点でクラシファイド広告を掲載していなくてもインデックス化の対象になれる(つまり、メニューの中にクロールの対象となるリンクがある)カテゴリページの存在に影響されているからだ。さらに、site:検索の有効性を検証するために、グーグルウェブマスターツール(GWT)を使い「内部リンク」のセクションでレポート出力した多数のページも計算に入れた。そうして得られた結果が下図だ。
知っておくべき大事なことは?
第1の結論は明白で、ページの番号が大きくなればなるほど、そのページがインデックス化される可能性は低くなるということだ。
第2は、GWTとsite:検索が示す実際の数は違っているが、トレンド(直線の傾き)はほぼ等しいということだ。平均すると、検索ロボットが検索結果の隣のページをクロールする確率は、1ページごとに1.2~1.3%ずつ減少する。
同様に興味深いのは、GWTによると、インデックス化率が良いのは2~4番目のページで、5番目以降はインデックス化率が劇的に下がっている点だ。たとえば、4番目のページのインデックス化率が60%なのに対し、15番目だとGWTで30%以下(グーグルのsiteクエリでは40%以下)にまで落ち込む。これは、15番目のページの場合、グーグルボットが適切なリンクにたどり着くまでの道のりが長いが(15番目のページへのリンクが最初に現れるのが12番目のページ)、2番目、3番目、4番目のページは、検索リストの最初のページに直接リンクがあるという事実に起因している(下図参照)。
今回のテストのテーマ:リンクの数を増やす
僕らは、ページ番号2以降の広告リストページに対するリンクを増やすことで、インデックス化率がどう変化するかを実験することにした。そのため下の図のように、各カテゴリの最初のページに、5番目、10番目、15番目のページへのリンクを追加した。
1か月後、変化があったかどうかを確かめた。グーグルでsiteクエリを実行したところ、不正確な結果が帰ってきた(インデックス化されたページの数が実際にあるページ数より多かった)ため、GWTのデータ(内部リンク)だけを紹介することにする。
結果
このグラフが明確に示しているのは、一覧の1ページ目にリンクを追加したページのインデックス化率は、変更後の方がはるかに高く(5番目、10番目、15番目のページ)、2番目、3番目、4番目のページと同程度になっているということだ。
しかし、トップページから直接リンクされているページのインデックス化率が向上しても、その近辺にあるページのインデックス化にはつながらなかった。たとえば、10番目のページのインデックス化率は大きく上昇しているのがわかるが、9番目のページや11番目のページに変化はない。結局、グーグルボットにとって、そうしたページは入り口から遠すぎるということなんだ。被リンクを獲得できるのは、リストに表示されているカテゴリページだけだ。
たとえば、カテゴリトップのページリストに表示されていない9番目のページを検索ロボットがインデックス化するには、次のような経路をたどらなければならない。
- メインのカテゴリページ(入り口)
↓ - カテゴリの一覧ページ(1ページ目)
↓ - カテゴリの一覧ページ(10ページ目
↓ - カテゴリの一覧ページ(9ページ目
さらに厄介なことに、すべてのカテゴリページが外部からの被リンクを獲得しているわけではない。
結論
クラシファイド広告サイトやEコマースサイトの場合、リストからリンクされるページが増えれば増えるほど、インデックス化される可能性も高くなる。一般的に、入り口(外部リンク)から遠くなればなるほど、ページがインデックス化されにくくなるのは間違いない。したがって、サイトの構造はあまり深くせず、入り口から遠く離れているページには、追加のリンクをつけておくのがよい(たとえば、「類似製品」「こちらもご覧ください」「関連カテゴリ」などのリンクを追加する)。
上の図をよく見ると、もう1つの変化に気づく――2番目、3番目、4番目のページのインデックス化率がわずかに減少しているんだ。これは、最近新しいページが追加されてまだインデックス化されていない(あるカテゴリにおける広告数が最初のページに掲載できるスペースを超えてしまったときに起こる)か、あるいは最初のページにある外部向けリンクの数が増えたか、いずれかによるものだろう。個人的な推測としては、新しいリンクが追加されるページの割合は少ないという事実があるので、最初に上げたものが原因だと思う。ページ番号が5のページは400しかない(つまり、5番目のページへのリンクは、1番目のページのうち0.5%にしか置かれていなかった)。10ページ目や15ページ目になると、その数はさらに少なくなる。
リンクを増やしても、クラシファイド広告サイトのインデックス化レベルの向上にはつながらなかったが、その理由を推測するに、変更が小さすぎて、インデックス化に影響を及ぼすまでにはいたらなかったからだろう。さらに、Morusek.plの広告のインデックス化率は、実験を始めた時点ですでに80%を超えていた。変更の余地が大いにあり、クラシファイド広告や製品のインデックス化レベルがもっと低いサイトなら、そうした変更を加えることで、インデックス化されるページの数が大幅に増加する可能性はある。
ソーシャルもやってます!