Moz - SEOとインバウンドマーケティングの実践情報

クローリングとインデックス化についてのマット・カッツ氏の発言を図解する

マット・カッツ氏に対する、インデックスやクロールのインタビューを、わかりやすいイラストで整理してみた。

グーグルのスパム対策チームを率いるマット・カッツ氏との素晴らしいインタビューが、3月14日に公開された。エリック・エンゲ氏(僕と一緒に『The Art of SEO』の共著者として名を連ねている)によるものだ。

SEOコミュニティにいる人なら誰だって、カッツ氏がこういったインタビューに時間を割いてくれるなんて滅多にないということに異論はないだろうし、個人的には、今後こうした機会がもっと増えればいいと願わずにはいられない。グーグルの立場や技術、目標について理解を深めることは、Webサイト制作者やマーケティング担当者にとって大きなメリットとなるだろう。

インタビュー自体に一読の価値があるのは当然だが、この記事に関して1人のSEOmoz読者とメールをやりとりする中で、「恥ずかしい話だが、内容によくわからない部分があった」と言われた。それももっともだ。そこで今回、カッツ氏の主な論点をイラストや図を交えた形で紹介することにした。それだけでなく、僕なりの思いつきや解釈を付け加え、ユーモアも交えてみた。いくつかの引用部分はカッツ氏の言葉をそのまま拝借しているけど、それ以外は(ときどき掲載する解説記事と同様に)カッツ氏が言っていることに対する僕なりの意見だということに留意してほしい。

#1 インデックス化に関して、厳しい制限はないが限度はある

僕は1つのサイトを見ただけで、インデックス化するページの数を50、500、あるいは5000ページにしようなどと決めるわけじゃない。
でも、いろんな指標を使って、1サイト内のページのどの部分をクロールするか、あるいはインデックス化するかといったことを決めてはいるんだよね?
その通り。たとえばPageRank(PR)は、僕がクロールすべきもの、インデックス化すべきものを決める上で大きな役割を果たしているんだ。
PageRank X
十分にインデックス化する価値がある
PR (X*0.85)/4
滅多にインデックス化されない
PR (((X*0.85)/4)*0.85)/4
インデックス化される可能性は極めて低い
どのページからどのページにリンクを張るかは、ページをクロールしてもらったりインデックス化してもらったりするのに本当に重要みたいだね。

#2 重複コンテンツはインデックス化の妨げになるかもしれない

このサイトには、コンテンツの重複がたくさんあるぞ。残りを全部クロールする価値があるかどうか、よくわからないな。
やれやれ……コンテンツの正規化や差別化に本気で取り組むべきだな。

#3 アフィリエイトリンクが評価されるための条件は厳しい

僕らは通常、この類のリンクを適切に処理したいと思っている。多くの場合、アフィリエイトリンクというのは、本質的に利益目的で人々を誘導するリンクのことだ。だから僕らは通常、支持票として評価することはない。
一般に/多くの場合/普通は
リンク信頼度を引き渡さない
言いたいことは分かったよ。時にはアフィリエイトのリンクが評価されることもあるけど、大半のケースでは評価されないんだね。

#4 301リダイレクトは、ページのリンクジュースのすべてではなく、一部しか引き渡さない

301リダイレクト:301を通じてPageRankの一部が失わることがある。
302リダイレクト:一般に、PageRankの漏れは起こらない。
301リダイレクト
リンクジュースやPageRankの数%が失われる
302リダイレクト
認識されない、あるいは価値や指標の値を引き渡さない可能性がある。
だから理想としては、ページを動かしたりすべきではないけれど、やむを得ない場合には、302リダイレクトより301リダイレクトを使う方が絶対いい。

#5 質が低いページや独自性に欠けるページが多いと、サイト自体がインデックス化されない可能性がある

こんなクズみたいなページばかりがあるところを見ると、このサイトを徹底的にクロールする価値は大してなさそうだ。
独自のコンテンツがほとんどない
大部分がアフィリエイト関連の複製コンテンツばかり
まったくと言っていいほどリンクやツィートなどで共有されておらず、このサイトを気に入っている本物のユーザーがいるとは考えられない
なんてヘマだ。僕はなぜこんなクズばかりサイトに置いているんだろう? 質の高いコンテンツだけを載せておくべきなんだね。

#6 ファセットナビゲーションとPageRankスカルプティングは難しい問題だ

「ファセットナビゲーション」は、あらかじめユーザーに使いやすいだろう検索条件をサイト側が用意しておき、ユーザーはそれを選ぶだけでコンテンツを絞り込んでいける仕組みのこと(詳しくはファセットナビゲーションの用語解説を参照。
このページには300を超えるリンクがあるから少し整理したいんだけど、ユーザーには全部が見えるようにしなくちゃいけない。どうすればいいかな?
…最初にサイトのアーキテクチャをきちんとしていれば、PageRankスカルプティングのことは考える必要がほぼなくなるだろう…自分のサイトでやりたいことをやるのは運営者の自由だけど、僕の経験から言うと、PageRankスカルプティングに時間をかけるのは賢明なことではない。
ちょっと待って――君はこれまでずっと、質が高くて独自性のあるページをグーグルボットに見せ、複製コンテンツや価値の低いコンテンツを避けるようにすることがいかに大切かを語ってきたよね。僕は極めてホワイトハット的な立場から、君にクロールしてもらうコンテンツとユーザーにアクセスしてもらうコンテンツを分ける必要があるんだ。
僕はただ、多くの場合そんなことにやる価値はないと言っているだけだ。そうじゃない場合だってあるかもしれないけれど、多くのウェブマスターにとって生産性向上の妨げになる非常に特殊なテクニックを、僕が手放しで受け入れるとは思わないでほしいんだ。僕がしょっちゅう誤解されているのを知っているかな?

僕が個人的に気に入ったのは、ファセットナビゲーションをユーザーには見せるけど検索エンジンには見えないようにするという、かなり高度な手法を必要とするシナリオについて、エンゲ氏がしつこくカッツ氏に食い下がっていたところだ。とはいえ、カッツ氏としては、ほぼすべての場合においてサイト所有者の95%から見て正しい立場をとらざるを得ないということもわかっている。そうしないと、新たな「PageRankスカルプティング」の問題を生むリスクを冒すことになるからね。

インタビューの中で特に際立っていて、僕を心底興奮させたのは、カッツ氏の以下の発言だ。

マット・カッツ氏:(広告内リンクに関して)その点について、われわれの姿勢は変わっていませんし、実際、今後数か月のうちに、リンクスパムに関する報告を増やすよう呼びかける可能性もあります。われわれは新しいツールと技術を用意して、この問題への対処法とともにオンラインで公開します。そのうちいつか、違う種類のリンクスパムについてのフィードバックも呼びかけるかもしれません。

これは本当に期待できそうな話だ。SEO業界にとっての大きなフラストレーションは、多数のSEO担当者が、ブラックハット的またはグレーハット的なテクニックを使う競合相手が自分たちより検索上位に立つことを知り、競争力を保つためには自分も同じ手法に手を染めなければならないと感じていることだった。これに終止符を打つ、あるいは、明らかな不正操作が報告された場合にはグーグルが一貫した対応をとってくれるのだとSEO担当者が感じるようにすることは、この難問を解決に導くのに大いに役立つだろう。

最後のお薦めは、エンゲ氏がカッツ氏とのインタビューから要点を抜き出した「29 Tidbits from my Interview of Matt Cutts」という記事だ。これは、すごく大切な情報や役立つヒントの数々を、実にうまくまとめてある。

◇◇◇

締めくくりに、エンゲ氏からカッツ氏にぜひ尋ねてもらいたいことを4つあげておこうと思う(もちろん、今度インタビューすることがあれば、の話だけど)。

  1. 内部アンカーへのリンクや、検索結果におけるアンカー付きURLの表示について、グーグルが認識を改めたけれど、ページ内のアンカーにリンクすればそのページ自体にリンクジュースが流れ込むと考えてもいいのかな? あるいは、ページ内にあるコンテンツのブロック1つひとつが、今後は別々の価値を持つ存在として扱われるのかな?

  2. rel="nofollow"の扱い方が変わり、グーグルがJavaScriptをクロール/実行できるようになった。となると、リンクジュースやPageRankを無駄にせず、クローキングも行わず、それでいてユーザーはアクセスできるが検索エンジンはアクセスできないようにウェブ上のドキュメントにリンクするには、どういう方法が最善なのだろう?(たとえば、robots.txtではそんなことはできなかった)

  3. グーグルは今、TwitterやFacebookで起きている共有やリンクの動きを、ウェブのリンクグラフ全体に影響を及ぼすものとして考慮しているか? あるいは、将来的に考慮する意思があるか?(ここでいうリンクは、標準的なウェブドキュメントに対するリンクとは違うものだと思ってもらいたい)

  4. 「質の低いコンテンツしかない、あるいは明らかに何らかの操作が施されたリンクをたくさん持っている競合相手が、自分より検索結果の上位にあるのはなぜか?」と聞かれたとき、カッツ氏はよく、軽々しくグーグルはまだリンクスパムの価値を評価から取り除けていないなどと思わないでほしい、その競合相手は実際に質の高いリンクソースに基づいて高い検索順位を獲得しているんだ、と答える。そのおかげで、マーケティング担当者は高い価値をわたすリンクとそうでないリンクを識別しようと常に努力しなくちゃいけない。実務的な知識がそこそこあって経験を積んだSEO担当者が、スパマーから怪しげなリンクを買ったりせず、まっとうなリンクを追求できるように、判断の手がかりになるものをアドバイスしてくれないだろうか?

用語集
Facebook / JavaScript / PageRank / PageRankスカルプティング / SEO / nofollow / robots.txt / アフィリエイト / インデックス / クローキング / クロール / ファセットナビゲーション / フィード / リンク / 検索エンジン / 重複コンテンツ
この記事が役に立ったらシェア!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

Python
「Python」(パイソン)は、プログラミング言語の1つ。プログラマのグイド・ヴ ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]