検索エンジンのインデックス化率を高めるために、一覧ページのナビゲーションを工夫してみた(検証あり)
簡単な前振り……
みんな知っているように、検索エンジンのロボットは人気のあるページをより頻繁に訪問する。人気のページとはつまり、リンクの数(サイトの内部と外部の両方から集めているリンクの数)が一番多いページということだ。たいていの場合、Webサイトの構造と被リンク数によって表されるページの人気の間には相関関係がある。
- トップページは一番多くの被リンクを集める。
- 第1層(たとえば製品カテゴリなど)や第2層、第3層にあるページは、被リンク数がトップページより少ない。
- 重要性が最も低いのは、深い部分にあるページだ(記事やクラシファイド、製品ページなど)。
ここで言うページの「重要性」とWebサイトの構成の関係については、ランドが投稿した『Diagrams for Solving Crawl Priority & Indexation Issues』(クロールの優先順位とインデックス化の問題を解決するための図解)という記事で説明されている。
重要なページはインデックス化の優先順位も変わってくるわけだが、これについてもランドがきれいに図解していた。
紫色の部分が、最も多くの外部リンクを集めているページだ。見てわかるとおり、紫色の部分に近いページは人気の一部を受け取り、それをさらに周囲へと受け渡している(ピンク色の部分)。その他のページはすべて、スパイダーがクロールを開始するポイントから遠すぎる。つまり、インデックス化される確率はずっと低くなるわけだ。
たくさんのコンテンツを持つクラシファイド広告サイトの場合、上の図にサブカテゴリのリストや検索結果ページも含まれるはずだ。そうしたページは、メインカテゴリのページほど重要でないのは明白だが、そこがインデックス化されているかどうかは、その中味(広告の詳細ページ)のインデックス化にも付加的な影響を与える。いわゆるプレミアム広告(有料で他の広告よりも強調して表示される広告)がリストの先頭に並んでいる場合には、これが特に重要だ。プレミアム広告は、普通のクラシファイド広告に比べて変更されることが少ないからだ。
テストの前に……
こうした理屈を踏まえて、僕らは実際のサイトでどうなっているのかを調べることにした。今回分析した『http://www.morusek.pl』(ペットや動物関連のクラシファイド広告を扱うポーランドのポータルサイト)は、インデックス化されたページの数が合計で10万を超えるWebサイトだ。「site:」と「inurl:」を組み合わせたクエリを用いて、インデックス化されたクラシファイド広告リストのページ数をチェックした。検索式は、
http://www.google.pl/search?q=site%3Awww.morusek.pl+inurl%3A%22%2F0%2F%22+inurl%3Aogloszenia
となる(クラシファイド広告はポーランド語では「ogloszenia」)。
最初の結果は以下の通り。
分析を先に進めるために、表中で番号1のページ(カテゴリ別の一覧表示で最初に表示される一覧ページ)を除外した。これらのページの数字は、その時点でクラシファイド広告を掲載していなくてもインデックス化の対象になれる(つまり、メニューの中にクロールの対象となるリンクがある)カテゴリページの存在に影響されているからだ。さらに、site:検索の有効性を検証するために、グーグルウェブマスターツール(GWT)を使い「内部リンク」のセクションでレポート出力した多数のページも計算に入れた。そうして得られた結果が下図だ。
ソーシャルもやってます!