グーグルによるウェブディレクトリの取り締まりを分析してみた
グーグルはしばらく前に、いくつかのディレクトリをインデックスから排除した。どれぐらいのディレクトリが削除されたのだろうか? その背後にあるパターンは?
やあ、僕はカーティス。ここSEOmozではどちらかと言えば新顔になる。正式な肩書きは「Captain of Special Projects(特別プロジェクト長)」だ。何をやっているのかと言うと、普通の人が見ないようなウェブの領域を長い時間を費やして閲覧し、データをまとめてGoogleドキュメントやExcelに入力している。
君がもしSEOmozのオフィスにある僕のデスクを通り過ぎることがあれば、警告しておくけど、僕のタスクリストにはウェブスパムの調査があるので、少しばかりトラウマになりそうなものが目に触れるかもしれない。仕事の苦労を忘れる気分転換に、2匹の猫の面倒を見たり、向こう見ずなセミプロだったミネソタ時代を懐かしんだりしているよ。
前置きはこれぐらいにして、僕にとって初となる公開プロジェクトに話を移そう。
きっかけになったのは、数週間前にグーグルが複数のディレクトリをインデックスから排除したことだった(リンク先記事は5月15日)。この出来事を受けて、僕らはグーグル側に何らかの事情があるのだろうかと考えた。そこで、集中的なデータ収集を独自に実施し、何が起きているのかを把握することにしたんだ。
僕らは、Val Web Design、SEOTIPSY.com、SEOmozの自前のディレクトリリスト(ウェブディレクトリだけを使った)など、いくつかのサイトのリストから全部で2678件のディレクトリを集め、手がかりを得るための探索を開始した。2678件のディレクトリのうち、排除されているのは94件(3.5%)だけだった。それほどひどくはない。しかし、そのほかに、排除されることは免れたもののペナルティを受けていたディレクトリが417件(15.6%)あった。
「ペナルティ」については、title要素やブランド名といったそのものずばりのクエリを実行しても、そのディレクトリが検索結果のずっと下位にしか出てこない(かつサイト内のすべてのページが同様であると考えられる)状態と定義した。
上のスクリーンショットを見て分かるように、ディレクトリの正確な名称をクエリに使ったにもかかわらず、検索結果の上位にはまったく出てこない。ただし、まだインデックスに残っていることは明白だ(下のスクリーンショットでわかるように、ドメイン名そのものでクエリを実行するとわかる)。
最初のうち、排除されたディレクトリのデータには共通する特徴が1つあった。ツールバー・ページランクが表示されないのだ。
初めに見つかったこの特徴は、たいていの場合に当てはまったが、調査を進めていくと、当てはまらないケースも多く見られるようになった。このことから僕は、これはアルゴリズム的なものではなく手作業で更新されているのではないかと考えるようになった。少なくとも、排除されたりペナルティを受けたりしたディレクトリから、明白に共通するメトリクスやパターンは見つからないのではないかと考えたんだ。
だからと言って、今のところ無傷のディレクトリが将来的なアルゴリズム・アップデートの影響を免れるというわけではない。実のところ、このアップデートは「グーグルが今後ディレクトリを取り締まる」という警告として機能することを意図したものではないかと僕は推測している。
それはなぜか? 僕に言わせれば、「SEOとリンクを目的として構築された」従来型ディレクトリの大半は、ユーザーに何の恩恵ももたらさず、「コンテンツを持たないスパム」というカテゴリに分類されてしまうからだ。
ディレクトリやリンクリソース・リストの中には、長期にわたって貴重で有用なものになりそうなところもある(たとえば、すばらしいデザインを集めたCSS Beauty、Craft Site Directory、法律関係の情報源であるPublic Legalなど)。これらがいわゆる「SEOディレクトリ」たちと世界を異にしているのは明白であり、したがって、リンク集という機能は共通していても、同じものとして分類するのは多分ふさわしくない。
データを調べよう
ディレクトリが排除されたかペナルティを受けたかを示し、ほかに少し情報を加えたスプレッドシートを2つ用意した。各自のチェックに遠慮なく使ってほしい。
画像またはキャプションのリンクをクリックすると、Googleドキュメントのスプレッドシートが表示される。
さらなるデータ分析
利用可能なデータのサイズと範囲を考えれば、大勢の人が仲間に加わってこれらのディレクトリを自分なりに分析し、できればほかにも興味深い相関関係を見つけてくれることを願っている。排除やペナルティの確認は退屈で面倒な作業なので、これだけの規模の分析を近いうちにもう一度やることはまずないだろう。ただし、半年から1年のうちにもう一度、変更はないか、グーグルが取り締まりを強化していないか、排除やペナルティが解かれたものはないか、注目すべき動きはないか、といったことを確かめるかもしれない。
コメント欄でのフィードバックや提案を楽しみにしているよ。
追伸:Mozscapeのメトリクス(PA、DA、mozRankなど)は、5月に公開されたインデックス51によるものだ。5月30日に公開した新しいインデックスには、さらに更新された有用で興味深いデータが取り込まれるだろう。機会があれば、公開しているスプレッドシートをこれらの数字を使って更新してみようと思っている。
SEOmozのディレクトリリストは更新済み
そうだ。パニックのさなか、不安を感じたのだろうか、ある人が「SEOmozのリストに掲載されているディレクトリの半分がインデックスから排除されている」と僕に注意を促し、このリストをいつ更新するかを知りたがった。
この人は「半分」と言っているけれど、実際にはSEOmozのリストに掲載された228のディレクトリのうち、排除されたのは4件、その他にペナルティを受けたのが4件だけだけどね。いずれにしろ、SEOmozのリストはすでに更新済みだ(6月1日)。辛抱強く待ってくれてありがとう!
ソーシャルもやってます!