インデックス化されているのは何ページ? 本当に役立つ数字を5ステップで簡単に得る方法
グーグルは、どのくらいのページ数をインデックス化しているのだろう?
こうした疑問やそれを巡るいろんな問題が、SEO業界全体で飛び交っている。この手の問いが出てくるのは、以下のようないくつかの検索を行ったときだ。
Google.comの検索結果によると、seomoz.orgというルートドメイン名では9万3800ページがインデックス化されていることになっている。なかなかの結果だ。でも、僕が先週検索したときには、インデックス化されていたのは約7万5000ページだった。しかも、その60秒後にGoogle.co.ukで同じ検索を実行すると、この数字はさらに劇的に変化した。
Google.comに戻ってもう一度同じ検索を実行するとどうなるだろう?
うわっ! Google.comのインデックスからSEOmozのページが8000ページも抜け落ちてしまった。これはひどい……。
でも、こうした数字を実際のKPI(Key Performance Indicators:重要業績評価指標)として使っているマネージャやマーケティングディレクタ、CEOたちにしてみれば、「ひどい」で片付けられることじゃない! 想像できる? 何の意味も持たず、データセンターによって300%も上下したりすぐに変化してしまったりして、利用できる洞察なんて何も得られない数字がビジネス指標として使われているんだよ?
とは言うものの……これは実際に起きているんだ。
幸いなことに、検索エンジンで「site:」を使って検索した結果よりも、はるかに有効なデータを簡単に得られる方法がある。この記事では、その手順を1つずつ具体的に説明していこう。
グーグルのインデックス数をGoogle Analyticsで調べる方法
Google Analytics で「トラフィック」を見る
Google AnalyticsやOmnitureで「トラフィック」のリンクをクリックする(別の分析ツールでは、「参照元」などとなっている場合もある)。
「検索エンジン」セクションに進む
僕らが知りたいのは、検索エンジンがインデックス化したページ数だ。このため、次の手順では、上に示したように「検索エンジン」という下位セクションに進む。
検索エンジンを選択する
インデックス化に関するデータを取得したい検索エンジンを選択して、クリックする。この検索エンジンから有料トラフィックとオーガニックトラフィックの両方を集めている場合は、表の上にある「表示」リンクで「オーガニック」を選んでおこう。
「閲覧開始ページ」でフィルタリングする
ドロップダウンリストから「閲覧開始ページ」を選択すると、選択した検索エンジンからサイト上の各ページが得たトラフィックを表示してくれる。また、こうすると、トラフィックを獲得した「総」ページ数も魔法のように表示されるんだ。これについては、最後の手順で説明する。
表の右下に表示される数字を記録する
この数字は、グーグルで実行された検索から少なくとも1回の訪問があったページの純数を表したものだ。
※Web担編注 折れ線グラフの下に大きな文字で表示される「○○種類の閲覧開始ページ」の数字も同じなので、こちらのほうが使いやすい。
これは、インデックス化における「聖杯」のようなもの、つまり探求してもなかなか見つけられない数字なんだ。この数字を見れば、検索エンジンが自分のサイトをどのようにインデックス化しているかを、時系列でかなり正確に追跡できる。この数字は、そのままでも大変便利なものだけど、時間を追って見ていくと(僕は普通1か月単位でこの数字を記録するよう勧めているが、サイトによっては2~3か月単位で記録した方が理にかなう場合もある)、君のサイトが検索エンジンから獲得しているトラフィックが、増えているのか減っているのかを知ることができる。
ただし、厳密に言うと、僕が上で書いたことはちょっと大げさかな。この数字はすべてを語ってくれるわけではない――検索エンジンが自分のサイト上をクロールしてインデックス化したページの実数を示すのではなくて、検索エンジン経由で少なくとも1件の訪問を獲得したURLの純数だ。それでも、僕の意見としては、このデータの方がより正確で役に立つと思う。ここで、最初の「正確」という形容については、(特にこの記事の最初に挙げたスクリーンショットを見たのであれば)ほとんど議論の余地はないが、次の「役に立つ」という形容については少し説明が必要だろう。
コメント
キャッシュのページを除外する方法
Googleはキャッシュを許可してるとき、一緒に拾ってしまいますので、「/search?q=cache:(ユニークな文字列)~」をフィルターで除外したほうがイイです。※閲覧開始のページ数が約2倍になってしまいます
例:次の文字を含まない「/search\?q=cache」
他には、例えばAdsense検索の結果も1ページになりますので、それも除外するときは、「|」で区切るとandになります。※「~partner-pub-(ユニークな文字列)~」
例:次の文字を含まない「/search\?q=cache|partner-pub-」
404専用ページにトラッキングコードがある時はそれも拾いますので、一度全体を見てアドバンスフィルターをつくっておくと楽です :)
Googleキャッシュからのアクセス、そうですよね
おっと藤井さんだ。こんにちは。
たしかに! GAのデータをみていると、Googleの検索結果でキャッシュを見た人のアクセスが結構あることがわかるんですよね。
良い情報、ありがとうございます!
> 「|」で区切るとandに
ここはORですね。
GAもステータスコードでフィルタとかできるといいのですが……。