クロール配分をウェブマスターツールとExcelを使って調べる方法

難しいツールを使わずに、最近話題の「クロール配分」を調べる方法。
よろしければこちらもご覧ください

SEO業界では最近、「クロール配分」が話題に上っている。クロール配分は新しい概念ではなく、ランドのイラスト付きガイドの日本語訳で説明したような内容を、マット・カッツ氏がエリック・エンゲ氏によるインタビュー記事でおおっぴらに語っていた。

ただし、ここで大きな問題となるのは、グーグルがサイトをどのようにクロールしているかを把握する方法だ。これを測定するには多種多様な方法が存在するが(Webサーバーのログファイルを見るのは、わかりやすい解決策の一例)、僕がこれから概説するやり方は、専門知識がなくてもできる。必要なのは以下の3つだけだ。

  • グーグルウェブマスターツールの認証済みアカウント
  • Google Analytics
  • Excel

この記事のゴール

この記事で紹介するやり方で作業すれば、次のような、カテゴリごとにクロール配分やトラフィックシェアを一覧した表を作れる。

こうして整理すると、サイト内のどこがクロール量に対してトラフィックの価値が高い/低いといった問題をわかりやすくチェック/レポートできるようになるのだ。

ここで説明する方法ではなく、Webサーバーのアクセスログファイルを使う方法で行きたいなら、イアン・ルーリー氏の「how to read log files」(ログファイルの読み方)と「analysing log files for SEO」(SEOのためのログファイル分析)という2つの記事が役に立つかもしれない。

ただし、Googlebotがサイトをクロールしたからといって、必ずページがインデックスされるわけじゃないことは、指摘しておくべきだろう。これは変な話に思えるかもしれないけど、ログファイルを調べたことがあるなら、Googlebotが時に異常な数のページを訪問するのに、多くの場合そのページを実際にコピーしてキャッシュに保存するのは何回か訪問した後になる、ということに気づくだろう。だからこそ、これから紹介する、グーグルから訪問を受けたURLと、ウェブマスターツールから分かるサイト内リンクのあるページを、組み合わせて使う方法がかなり正確だと思う。とはいえ、ログファイルのデータを第3のデータとしてこの手順に組み込めば、もっとすばらしい結果が期待できるだろう(データが増えるのはいいことだ!)。

いずれにせよ、理屈はここまでにして、サイトの中でグーグルがクロールしているページを把握し、実際にトラフィックを獲得しているページと比較するにはどうしたらいいか、専門知識なしで実行できる手順を1つずつ見ていこう。

※Web担編注 原文でもコメントで指摘があり筆者も認めている点だが、この記事の解説は、Excelの扱い方に慣れている人向けになっている。日本語訳バージョンでは可能な限り補足を入れるようにしたが、「読んでそのとおり作業すればできる」解説にまではなっていないので、ご了承いただきたい。

[ステップ1] 内部リンクのデータをダウンロードする

ウェブマスターツールにアクセスして「内部リンク」を開く。
内部リンクのページが表示されたら、ページ最下部にある「このテーブルをダウンロード」をクリックする(「すべての内部リンクをダウンロード」ではない)。

これで、グーグルが内部リンクを把握しているページの表が手に入る。本記事ではこれ以降、このデータをグーグルのクロール数の概算として扱うことを留意してほしい。これについては記事冒頭の解説を参照してほしい。

僕の感触では、これはグーグルで「site:」を使った検索よりも正確だ。ただし、これには落とし穴もある。このレポートからわかるのはリンクが張られているページの数であり、グーグルがクロールしたページの数ではないからだ。それでもグーグルのインデックスを測定するのに悪い方法ではない。この方法が不正確になるのは、「rel=nofollow」付きのサイト内リンクや、(リンクを張っているのに)robots.txtでブロックされているページがたくさんある場合だけだ。

[ステップ2] Google Analyticsで閲覧開始ページのデータを取得する

このステップは、Google Analyticsを使っている人ならよく知っているはずだ。最近30日のオーガニックトラフィックレポートを開いて閲覧開始ページを表示し、データをダウンロードしよう。

留意すべきは、可能な限り多くのデータを入手できるよう、URLに「&limit=50000」を付け足してから「CSVとしてエクスポート」をクリックすべきだということ。ランディングページが5万以上ある場合は、対象の期間を狭くするか、より高度な方法を試してみよう(ログファイルを使う方法について述べた部分を参照してもらいたい)。

※Web担編注 

Google Analyticsの管理画面にアクセスしてからの作業の手順は次のとおり。

  1. [トラフィック]>[検索エンジン]を開く
  2. グラフの下にある「表示:」で「合算」となっている部分を「オーガニック」に変更する。
  3. 表の上の「参照元」になってるドロップダウンを「閲覧開始ページ」に変更する。
  4. ブラウザのURLバーの最後に「&limit=50000」を入れて[Enter]を押す(ページ表示は変わらない)。
  5. Google Analyticsのグラフの上にある[エクスポート]ボタンをクリックしてTSV形式でダウンロード(経験上、「CSV形式(Excel)」よりもこちらのほうがトラブルが少ない)。
  6. ダウンロードが完了したら、そのファイルの文字コードをShift-JISに変更して保存しておく。
ステップ3 - 両方のデータをExcelに入れる
ステップ4 - VLOOKUP関数を使う
ステップ5 - URLを分類する
ステップ6 - ピボットテーブルを作成する
ステップ7 - 2個のピボットテーブルを組み合わせる
結論

[ステップ3] 両方のデータをExcelに入れる

次に、手に入れた2つのデータをExcelに入れる。データを全部同じシートに入れるのが便利だと思うけど、絶対にそうしなくちゃいけないというわけではない。ここでは、ウェブマスターツールから入手したURLのリンク数のデータを左側に、Google Analyticsから入手したアクセス数のデータを右側に並べてみた。

※Web担編注 Google Analyticsのエクスポートデータは、前半のグラフ用のデータ部分を削除して表部分だけにし、さらに各行の先頭にドメイン名(http://~)を追加して、ウェブマスターツールと同じスタイルにしておく必要がある。また、Excelに取り込んだあと、「閲覧開始ページ」と「セッション」の列だけを使うようにする(他の列は必要ない)。

[ステップ4] VLOOKUP関数を使う

さあ、ここでVLOOKUP関数の登場だ。VLOOKUP関数はこうしたデータセットのために作られたようなもので、2つデータセットの数値を容易に比較できる。両方のデータセットに1回ずつ、計2回VLOOKUPを実行することをお勧めする。結果は次のようになる。

注意 - サイト上にあるコンテンツの古さによっては、データが失われている部分があるかもしれない(これについてはおそらく、単独のテーマとして新たに記事を書く余地がありそうだ)。したがって、「#N/A」となっているところは「0」に書き換えておくべきだろう。

※Web担編注 Excelに以下の形でデータが入っているとすると、

A列ウェブマスターツールの「ページ」
B列ウェブマスターツールの「リンク」
C列VLOOKUPで「セッション」を抽出(詳しくは後述)
D列空き
E列Google Analyticsの「閲覧開始ページ」
F列Google Analyticsの「セッション」
G列VLOOKUPで「リンク」を抽出(詳しくは後述)

C2セルに次のように入れ、そのセルをコピーしてC列の他の行に貼り付ける。

=IF(ISNA(VLOOKUP(A2,E:F,2,FALSE)),0,VLOOKUP(A2,E:F,2,FALSE))

G2セルに次のように入れ、そのセルをコピーしてG列の他の行に貼り付ける。

=IF(ISNA(VLOOKUP(E2,A:B,2,FALSE)),0,VLOOKUP(E2,A:B,2,FALSE))

上記「ISNA」によって、原文にある「#N/Aを0に置き換える」処理が不要になる。

また、VLOOKUPのセルを埋めたら、このあとにシートを変更しても影響がないように、いちどC列とG列について、それぞれ列全体をコピーして[形式を選択して貼り付け]をし、[値]で貼り付けておくといいだろう。

[ステップ5] URLを分類する

さて、今回の記事では、URLを個別にたどって調べることよりも、全体でどういった現象が起きているのかという高度な分析を目指しているので、その目的にかなうようURLを分類していきたい。このステップで細かい所まで分類すればするほど、最終結果の精度が高くなるだろう。

そこで、カテゴリをURLに割り当てるルールをExcelで記述してみよう。これは、フォルダ構造に合わせただけのものから、クエリ文字列に基づくより複雑なものまで、さまざまな可能性がある。実際のところ、どんな分類が最適なのかは、サイト構造がどうなっているかによるので、残念ながらここで誰にでも最適なルールを書くのは不可能だ。それでも、各自工夫して実行すると、次のような表ができるだろう。

※Web担編注 Excel上でA列のうしろに1列挿入して、各行についてB列に「カテゴリ」を入力していく。同様に、Google Analyticsの「閲覧開始ページ」(最初はE列、前述の「カテゴリ」を挿入した時点でF列)のうしろに1列挿入してカテゴリを入力していく。この図はウェブマスターツールの部分についてのカテゴリ分類が終わった状態を示している。

ページ分類ルール決めで悩んでいて、サイト構造が標準的な「サイト名.com/カテゴリ/サブカテゴリ/製品名」という形式になっている場合は、URLの「/」の数で分類するのが簡単だ。この場合、そのURLがどのカテゴリに属するかはわからないが、少なくともページが何階層目にあるかという基本的な分類はできる。

Excelの学習とURLの分類の2つは、努力して取り組んでみる価値があると本当に思うよ。この段階で追加するデータの質が高ければ高いほど、結果も良くなるだろう。

※Web担編注 コンテンツ管理システムを使っていて、CMS上にはカテゴリ分類の情報がある場合、それをまた別途Excelにインポートして、URLからカテゴリを自動表示させることも可能だろう。
ステップ6 - ピボットテーブルを作成する
ステップ7 - 2個のピボットテーブルを組み合わせる
結論

[ステップ6] ピボットテーブルを作成する

次に、ピボットテーブルの助けを借りて、自サイトのカテゴリに関する情報を集計しよう。僕のお薦めは、2つのデータセットについて別々にピボットテーブルを作り、両方からデータを取れるようにすることだ。すると、ピボットテーブルのフィールドリストは次のようになるはずだ。

ここで重要なのは、僕らの関心の対象は、インデックスされたページ数(つまり、ウェブマスターツールから取ったリンク元ページの数)にあるということだ。ピボットテーブルでは標準で値が「合計」になるが、上図で示したように、リンクの値フィールドの設定を変更し、「集計の方法」を「データの個数」にしておこう。

両データセットについてピボットテーブルを作ると、だいたい次のようになるだろう。

[ステップ7] 2個のピボットテーブルを組み合わせる

この段階でやりたいのは、1つ目のピボットテーブルからウェブマスターツールのリンク数を取り、2つ目のピボットからGoogle Analyticsのリンク数と訪問数合計を取って、次のような表を作ることだ。

※Web担編注 例での各列は次のような内容になっている(計算セルに入れる式は各列の先頭セルの場合を示している)。

内容例での式式の意味
A列カテゴリピボットテーブルから「行ラベル」をコピー
B列1回でも訪問のあった
URLの数
Google Analyticsで調べたページのピボットテーブルから
「データの個数 / リンク」をコピー
C列グーグルに
インデックス化された
URLの数
ウェブマスターツールでインデックス化されているページのピボットテーブルから
「データの個数 / リンク」をコピー
D列セッション数の合計Google Analyticsで調べたページのピボットテーブルから
「合計 / セッション」をコピー
E列クロール配分
=C2/SUM(C:C)
「グーグルにインデックス化されたURLの数」の値
÷「グーグルにインデックス化されたURLの数」列の合計
F列トラフィックのシェア
=D2/SUM(D:D)
「セッション数の合計」の値
÷「セッション数の合計」列の合計
G列訪問率
=D2/C2
「セッション数の合計」
÷「グーグルにインデックス化されたURLの数」

結論

クロール配分の25%を占めているページが
オーガニックなトラフィック全体の2%しか生み出していない

さて、ここで例に取ったサイトのデータで目につくのは、「検索」と「その他」のページのクロール配分を合わせるとサイト全体の25%を占め、きわめて頻繁にクロールされているにもかかわらず、検索トラフィックのシェアでは合わせて2.4%しかないという点だ。

この例において、これは注目すべきかなり基本的なポイントだと思われる。つまるところ、優秀なSEO担当者ならサイトレビューによって検索ページがクロールされていることを見抜けるだろうが、データによってそれを裏付けることができたなら、管理しやすいレポートを作れるし、また問題の広がりを解析するのにも役立つ。

今回のレポートからは、もうこれ以上クロールされるページを増やすことができない場合、25%にものぼる検索ページのクロールシェアを他に振り分けてやることで、検索トラフィックを多く獲得しているカテゴリページの中でクロールされるページ数を増やすことができるかもしれない、ということもわかる。

この記事の筆者

この記事は、Daily SEOmoz Blog に掲載された以下の記事を日本語訳したものです。

原文:「Diagnosing Google Crawl Allowance Using Webmaster Tools & Excel」 by Tom_C (2010/03/28 21:47 PDT)

記事セレクション:渡辺隆広株式会社アイレップ
翻訳:株式会社ガリレオ

テーマ別カテゴリ: 
記事種別: