SEO業界では最近、「クロール配分」が話題に上っている。クロール配分は新しい概念ではなく、ランドのイラスト付きガイドの日本語訳で説明したような内容を、マット・カッツ氏がエリック・エンゲ氏によるインタビュー記事でおおっぴらに語っていた。
ただし、ここで大きな問題となるのは、グーグルがサイトをどのようにクロールしているかを把握する方法だ。これを測定するには多種多様な方法が存在するが(Webサーバーのログファイルを見るのは、わかりやすい解決策の一例)、僕がこれから概説するやり方は、専門知識がなくてもできる。必要なのは以下の3つだけだ。
- グーグルウェブマスターツールの認証済みアカウント
- Google Analytics
- Excel
この記事のゴール
この記事で紹介するやり方で作業すれば、次のような、カテゴリごとにクロール配分やトラフィックシェアを一覧した表を作れる。
こうして整理すると、サイト内のどこがクロール量に対してトラフィックの価値が高い/低いといった問題をわかりやすくチェック/レポートできるようになるのだ。
ここで説明する方法ではなく、Webサーバーのアクセスログファイルを使う方法で行きたいなら、イアン・ルーリー氏の「how to read log files」(ログファイルの読み方)と「analysing log files for SEO」(SEOのためのログファイル分析)という2つの記事が役に立つかもしれない。
ただし、Googlebotがサイトをクロールしたからといって、必ずページがインデックスされるわけじゃないことは、指摘しておくべきだろう。これは変な話に思えるかもしれないけど、ログファイルを調べたことがあるなら、Googlebotが時に異常な数のページを訪問するのに、多くの場合そのページを実際にコピーしてキャッシュに保存するのは何回か訪問した後になる、ということに気づくだろう。だからこそ、これから紹介する、グーグルから訪問を受けたURLと、ウェブマスターツールから分かるサイト内リンクのあるページを、組み合わせて使う方法がかなり正確だと思う。とはいえ、ログファイルのデータを第3のデータとしてこの手順に組み込めば、もっとすばらしい結果が期待できるだろう(データが増えるのはいいことだ!)。
いずれにせよ、理屈はここまでにして、サイトの中でグーグルがクロールしているページを把握し、実際にトラフィックを獲得しているページと比較するにはどうしたらいいか、専門知識なしで実行できる手順を1つずつ見ていこう。
[ステップ1] 内部リンクのデータをダウンロードする
これで、グーグルが内部リンクを把握しているページの表が手に入る。本記事ではこれ以降、このデータをグーグルのクロール数の概算として扱うことを留意してほしい。これについては記事冒頭の解説を参照してほしい。
僕の感触では、これはグーグルで「site:」を使った検索よりも正確だ。ただし、これには落とし穴もある。このレポートからわかるのはリンクが張られているページの数であり、グーグルがクロールしたページの数ではないからだ。それでもグーグルのインデックスを測定するのに悪い方法ではない。この方法が不正確になるのは、「rel=nofollow」付きのサイト内リンクや、(リンクを張っているのに)robots.txtでブロックされているページがたくさんある場合だけだ。
[ステップ2] Google Analyticsで閲覧開始ページのデータを取得する
このステップは、Google Analyticsを使っている人ならよく知っているはずだ。最近30日のオーガニックトラフィックレポートを開いて閲覧開始ページを表示し、データをダウンロードしよう。
留意すべきは、可能な限り多くのデータを入手できるよう、URLに「&limit=50000」を付け足してから「CSVとしてエクスポート」をクリックすべきだということ。ランディングページが5万以上ある場合は、対象の期間を狭くするか、より高度な方法を試してみよう(ログファイルを使う方法について述べた部分を参照してもらいたい)。
ステップ4 - VLOOKUP関数を使う
ステップ5 - URLを分類する
ステップ6 - ピボットテーブルを作成する
ステップ7 - 2個のピボットテーブルを組み合わせる
結論
[ステップ3] 両方のデータをExcelに入れる
次に、手に入れた2つのデータをExcelに入れる。データを全部同じシートに入れるのが便利だと思うけど、絶対にそうしなくちゃいけないというわけではない。ここでは、ウェブマスターツールから入手したURLのリンク数のデータを左側に、Google Analyticsから入手したアクセス数のデータを右側に並べてみた。
[ステップ4] VLOOKUP関数を使う
さあ、ここでVLOOKUP関数の登場だ。VLOOKUP関数はこうしたデータセットのために作られたようなもので、2つデータセットの数値を容易に比較できる。両方のデータセットに1回ずつ、計2回VLOOKUPを実行することをお勧めする。結果は次のようになる。
注意 - サイト上にあるコンテンツの古さによっては、データが失われている部分があるかもしれない(これについてはおそらく、単独のテーマとして新たに記事を書く余地がありそうだ)。したがって、「#N/A」となっているところは「0」に書き換えておくべきだろう。
[ステップ5] URLを分類する
さて、今回の記事では、URLを個別にたどって調べることよりも、全体でどういった現象が起きているのかという高度な分析を目指しているので、その目的にかなうようURLを分類していきたい。このステップで細かい所まで分類すればするほど、最終結果の精度が高くなるだろう。
そこで、カテゴリをURLに割り当てるルールをExcelで記述してみよう。これは、フォルダ構造に合わせただけのものから、クエリ文字列に基づくより複雑なものまで、さまざまな可能性がある。実際のところ、どんな分類が最適なのかは、サイト構造がどうなっているかによるので、残念ながらここで誰にでも最適なルールを書くのは不可能だ。それでも、各自工夫して実行すると、次のような表ができるだろう。
ページ分類ルール決めで悩んでいて、サイト構造が標準的な「サイト名.com/カテゴリ/サブカテゴリ/製品名」という形式になっている場合は、URLの「/」の数で分類するのが簡単だ。この場合、そのURLがどのカテゴリに属するかはわからないが、少なくともページが何階層目にあるかという基本的な分類はできる。
Excelの学習とURLの分類の2つは、努力して取り組んでみる価値があると本当に思うよ。この段階で追加するデータの質が高ければ高いほど、結果も良くなるだろう。
ステップ7 - 2個のピボットテーブルを組み合わせる
結論
[ステップ6] ピボットテーブルを作成する
次に、ピボットテーブルの助けを借りて、自サイトのカテゴリに関する情報を集計しよう。僕のお薦めは、2つのデータセットについて別々にピボットテーブルを作り、両方からデータを取れるようにすることだ。すると、ピボットテーブルのフィールドリストは次のようになるはずだ。ここで重要なのは、僕らの関心の対象は、インデックスされたページ数(つまり、ウェブマスターツールから取ったリンク元ページの数)にあるということだ。ピボットテーブルでは標準で値が「合計」になるが、上図で示したように、リンクの値フィールドの設定を変更し、「集計の方法」を「データの個数」にしておこう。
両データセットについてピボットテーブルを作ると、だいたい次のようになるだろう。
[ステップ7] 2個のピボットテーブルを組み合わせる
この段階でやりたいのは、1つ目のピボットテーブルからウェブマスターツールのリンク数を取り、2つ目のピボットからGoogle Analyticsのリンク数と訪問数合計を取って、次のような表を作ることだ。
結論
クロール配分の25%を占めているページが
オーガニックなトラフィック全体の2%しか生み出していない
さて、ここで例に取ったサイトのデータで目につくのは、「検索」と「その他」のページのクロール配分を合わせるとサイト全体の25%を占め、きわめて頻繁にクロールされているにもかかわらず、検索トラフィックのシェアでは合わせて2.4%しかないという点だ。
この例において、これは注目すべきかなり基本的なポイントだと思われる。つまるところ、優秀なSEO担当者ならサイトレビューによって検索ページがクロールされていることを見抜けるだろうが、データによってそれを裏付けることができたなら、管理しやすいレポートを作れるし、また問題の広がりを解析するのにも役立つ。
今回のレポートからは、もうこれ以上クロールされるページを増やすことができない場合、25%にものぼる検索ページのクロールシェアを他に振り分けてやることで、検索トラフィックを多く獲得しているカテゴリページの中でクロールされるページ数を増やすことができるかもしれない、ということもわかる。
ソーシャルもやってます!