Moz - SEOとインバウンドマーケティングの実践情報

グーグルの「1000ページの壁」を破るsite:やurl:検索の使い方

2008年8月4日 9:00

1万ページ以上がインデックス化されてるサイトを手がけている場合、この「1000ページの壁」が立ちはだかることがあるんだ。これは、SEO担当者がページを見つけてもらおうと努力していても、複製コンテンツと闘っていても、「robots.txt」の変更点を確認したり最先端のインデックス操作を施したりしていても関係ない。

では、インデックスをより深く掘り下げ、全体像をきちんと見るためにはどうすればいいんだろうか？

ツール――「site:」と「inurl:」

まず、必要なツールは2つだ。ほとんどの人は、グーグルの「site:」コマンドをよく知っていると思う。指定したドメイン名またはサブドメイン名内にあるインデックス化されたページを表示するコマンドだね。

例としてSEOmozで調べてしてみよう。グーグルの検索ボックスに「site:seomoz.org」と入力してみると、下の画像みたいなのが表示されるはずだ。

それから、もう1つ利用するのが「inurl:」コマンド。これは、他の検索語句と組み合わせて使うんだけど、検索結果の範囲を、指定したキーワードをURLに含むページだけに限定してくれるんだよね。これを「site:」コマンドと組み合わせて使えば、インデックス化されたページのうち、そのキーワードをURLに含むページだけが結果として返ってくるわけさ。

戦術――インデックスの論理的分割

SEOmozを例にとると、一度に1000ページしか見られないっていうのに、およそ1万3000ページ分もあるインデックスの中にどのページとどのページが含まれているか、どうやればわかるんだろうか？

ここで鍵になるのは「一度に」という言葉だ。一度に見られるのは1000ページだけど、検索の仕方によって、表示される1000ページの内容は変わってくるんだよね。論理的に分割してインデックス検索を行えば、膨大な量のインデックス全体を、なんとか処理可能な分量に切り分けることができる。具体的には、「inurl:」を利用して、「site:」コマンドで表示されるインデックスの数をさらに絞り込むんだ。

例――SEOmozのインデックスを論理的分割してみる

こういうテクニックは、実例を使って説明したほうがずっとわかりやすいよね。

例として、SEOmozの1万3000ページにも及ぶインデックス化されたページを隅々まで調べなければならない状況を考えてみよう。

まずは、SEOmozのサイトでメインのナビゲーションをチェックして、サイトのURL/フォルダ構造を知る手がかりを得るところから始めよう。右上にあるSEOmozのナビゲーションを見ると、下図のようになっているはずだ（1〜6の数字は僕が付け加えた）。

(1) ブログ　(2) YOUmoz　(3) 記事　(4) SEOツール　(5) PRO会員向けコンテンツ　(6) SEOサービス・マーケットプレース

「ホーム」は飛ばして、最初のリンクは「/blog」フォルダを指しているね。これはなかなか使えそうなので、「site:」と「inurl:」の組み合わせで検索してみよう。

検索結果をすべて表示するために「ここから再検索してください」というリンクをクリックすると、URLに「blog」が入っているSEOmozのページは2700ページ分ほどグーグルのインデックスにあるという結果が得られた。これは幸先がいいぞ。さて、そこで、主なフォルダについてもう少し調べてみたらどうなるだろう（下記の数字は上図の数字に対応）。

(1)	inurl:blog	2700
(2)	inurl:ugc	767
(3)	inurl:articles	100
(4)	inurl:tools	33
(5)	inurl:users	6190
(6)	inurl:marketplace	823

悪くないね。たった6つのサブフォルダを調べただけで、1万件強の結果が得られたんだ。1万件といえば、インデックス化されているページ全体の80％弱に相当する。もちろん、これは重複が最小限だと仮定した場合の話だし、グーグルが表示するページ数が正確だっていう保証もない（「inurl:」の問題については、この記事の最後でもう少し説明するね）。けれども、調査を行うには十分すぎるほどの結果だ。

さて、さらに切り分けなきゃいけないグループが2つ残っている。たとえば5番の「users」フォルダは、まだ1000ページを超えているね。ここで、論理と、このサイトに関する知識を活用する必要が出てくるんだ。僕は、SEOmozをよく利用している人間として、「users」というフォルダにはユーザーのプロフィールがすべて収められているということを知ってる。ちょっと調べれば、プロフィールを示すURLには、すべて「users/view」という語が含まれているのがすぐにわかる。そこで新たに「inurl:users/view」として検索してみると、5950人分のユーザー・プロフィールが得られた。これが「users」フォルダにあるほぼ全ページで、インデックス全体の約半分を構成している。

例――URL正規化の問題

1つのサイトについて、グーグルの全インデックスを論理的に分割しようなんてことは考えることはあんまりないんだけれど、ある疑問を解決しなければならない場合にこの手が使えるんだ。

僕の会社のサイト/ブログを例として説明しよう。最近、ブログプラットフォームのコードに、2とおりのURL（1つは正規のURLでもう1つは非正規のURLだ）を生成するバグが残っていることに気が付いたんだ。そのせいで、たとえば、同じブログ記事が次のような2とおりのURLを持つ可能性があった。

http://www.usereffect.com/topic/the-last-spam-youll-ever-need
http://www.usereffect.com/index.php?id=154

そこで僕は、ちょっとコードをいじってこの問題を修正した。でも、この修正がうまくいってるかどうかは、どうすればわかるんだろうか？僕は単純に「site:usereffect.com inurl:id」という検索コマンドを使って、「id」が含まれているURLを探した。この記事を書いている時点で、検索結果は1件だけだったから、修正によって求める効果が得られたことになる。

「inurl:」の使い方（上級編）

「site:」と「inurl:」コマンドは、比較的単純な検索ツールであるにもかかわらず、うまく組み合わせて使えば、いかに強力かってこと、うまく伝わったかな？けど、みんなが実際にこれを使って作業に取りかかる前に、「inurl:」について2、3注意しておきたいことがある。それは、「inurl:」の動作に不都合な点があるということだ。

まず、「inurl:」ではほとんどの場合、区切り記号が無視されちゃうみたいなんだよね。フォルダを検索するときに、「inurl:/blog」で検索しても「inurl:blog」で検索しても同じ結果が返ってくるんだ。つまり、検索結果として、URLのどこかに「blog」を含むすべてのページが表示されるということ。これが問題にならない場合もあるけど、それはケースバイケースで判断しなければならない。

次に、通常のグーグルの検索語同様、「inurl:」でもキーワードを1つの単語と見なすので、単語の一部だけをキーワードとして検索することはできないみたいだね。つまり、URLに「detection」という単語が入っているページは「site:seomoz.org inurl:detection」ではヒットするが、「site:seomoz.org inurl:detect」ではヒットしない。

それから、1つの「inurl:」で一度に指定できるキーワードは1つだけだ。ただし、検索においては複数の「inurl:」（1つのキーワードに対して1つずつ）を使用することが可能で、両方の条件を満たす検索結果を探す（AND検索）。

また、検索で特定のキーワードを含まないURLを検索する場合は、「-inurl:」を使えばいい。

最後に、通常の検索語と「site:」「inurl:」コマンドを併用すれば、1回の検索で、URLとコンテンツ内キーワードの両方でインデックス化されたページに絞り込むことができる。

この記事のキーワード：