正規版コンテンツと複製版コンテンツ - 『検索エンジン最適化の初心者ガイド』改訂版#4-3
この記事は、『検索エンジン最適化の初心者ガイド』をセクションごとに書き直していく過程のエントリだ。この構想については、概要を見てもらえば、もっとよくわかるだろう。
コンテンツの正規版と複製版
SEOではなぜコンテンツの正規版が重要なのか?
「ページの正規性を明確にする」という概念、つまり、そのコンテンツが正真正銘のオリジナル版あるいは正規版だと示すことは、なかなか理解しにくい概念かもしれない。けれども、この正規化という考え方は、最適化されたウェブサイトを作成する上では必要不可欠な考え方なんだ(canonicalizationという)。
そもそもこの問題は、一度書いたものが何度も使い回されることに端を発している。つまり、ある段落とかコンテンツのページ全体が(こちらの方がありがち)、ウェブサイトの複数の場所や、うっかりすると別のウェブサイトにも出てくることがあるだろ? 検索エンジンにとって、これは難しい問題だ。検索されたときに、どのコンテンツを表示すればいいんだろう、ってね。SEOの世界では、この問題を「複製コンテンツ問題」「重複コンテンツ問題」と呼ぶことが多い。この話は僕も以前に書いているので、詳しくはこちらを見てほしい。
検索エンジンは、素材の一部分を切り取って作った複製コンテンツを嫌がるものだ。ユーザーに最高の検索体験を提供するため、検索エンジンは同じコンテンツを2度も3度も表示しないよう細心の注意を払っている。したがって、どちらがオリジナル版(あるいは最良のバージョン)なのか、可能性が高いほうを選ぶ必要がある。
ページの正規性を明確にするというのは、一意なコンテンツがそれぞれ唯一無二のURLを持つようにコンテンツを整理することだ。このルールを守っていれば、そのコンテンツは唯一のバージョンとして検索エンジンに見つけてもらいやすくなり、ドメインの強さ、信用度、関連性の高さなどを判断基準として、可能な限り最も高い順位が与えられることになる。その反対に、1つまたは複数のウェブサイト上に、そのコンテンツのさまざまなバージョンを置いていた場合にどうなるかというと、次の図のようになる可能性がある。
では、今度は上図のような形ではなく、これら3ページを301リダイレクトで1つのURLにまとめていたとしよう(301リダイレクトの使い方については「Guide to Applying 301 Redirects with Apache」の記事を参照)。その場合、検索エンジンはそのサイトから最も強力なページを1ページだけ選んで、検索結果に表示してくれるだろう。
高い順位を獲得できる可能性のある複数のページを1つのページにまとめてしまえば、もはやお互いに競合して共食いすることもなくなり、全体としてより強い関連性と人気を得るきっかけを生み出してくれる。この手法は、検索エンジンで高い順位を獲得する上で良い影響をもたらす。
たとえばSEOmozも、コンテンツの各ページについて、すべてウェブ閲覧用と印刷用の2バージョンが存在するキャンペーンをいくつか手がけたことがある。その中の1つに、あるサイト運営者自身のサイトが両バージョンにリンクしていて、どちらのバージョンもたくさんの外部リンクを獲得しているというケースがあった(ブログやソーシャルメディア関連のサイトは、広告を避けて印刷用バージョンにリンクするのを好む傾向があるため、これは大変よくある話)。
そこでこのケースについて僕らは、すべての印刷用バージョンをそれぞれのウェブ閲覧用バージョンに301リダイレクトし、同時にCSSオプションを設け、各ページを印刷用のフォーマットでも表示できるようにした(もちろん同一のURLで)。その結果、60日以内に検索エンジン由来のトラフィックが20%以上増加した。
たった1時間で問題点を見つけ、.htaccessファイルにいくつか巧みなルールを設けて修正したのだから、このプロジェクトにとっては悪かろうはずもない。
スクレーパー(コンテンツ盗用者)やスパム屋に
検索順位で負けないサイト作り
残念ながら、インターネットの世界には(数百万とは言わないまでも)何十万という悪辣なウェブサイトがはびこっている。
こうした悪質なサイトは他のサイトからコンテンツを盗用しており、その盗用したコンテンツを元にビジネスモデルやトラフィックをつくっている。彼らは、プログラムを使って自動的にウェブから盗んできたコンテンツを、厚かましくも自サイトのドメイン名で掲載している(ときには少しだけ変な風に手を加えた形で再利用している)。
こうした他者のコンテンツを盗用して再利用する手法を「スクレーピング」と呼ぶ。そして、この行為に手を染めるスクレーパーが、検索順位でオリジナルのサイトを上回り、広告掲載で(皮肉なことに、多くの場合Google自身のAdSenseプログラムが関係する)非常に多くの収入を得ている。
現実的には、盗用自体を防ぐのは、ほぼ不可能だ。けれども、検索結果でそうした泥棒猫に負けない良い手がいくつかある。
まず、RSSなどのXMLフィード形式でコンテンツを公開する際は、必ずGoogleやTechnoratiやYahoo!などの主要ブログサービスおよび更新追跡サービスにサイトを更新したことを通知しておこう。この更新通知は「更新ping」と呼ばれ、すでに一般的な手法として認知されている。
自サイトから更新pingを送る方法は、Googleブログ検索のヘルプやTechnorati JAPANのPing送信ページなどで公開されているし、Ping-O-Maticなどのサービスを利用して更新ping送信のプロセスを自動化してもいい(※Web担編注:日本ならばping.bloggers.jpが有名だ)。CMS(コンテンツ管理システム)でサイトを構築するならば、新規コンテンツ公開時に更新pingを自動送信する機能を組み込んでおくのが賢明だ。
次に、スクレーパーの怠慢を利用するという方法がある。スクレーパーというのはたいていコンテンツを編集しないで再掲載する。したがって大半のコピー版で、自分の(オリジナルの)サイトを指すリンクと、自分の書いた特定の記事の存在により、こちらの(オリジナルの)サイトにリンクしている状態を確実に検索エンジンに示すことができる(これは、こちらのサイトがオリジナルである可能性が高いことを示す)。
そのためには、内部リンク構造で相対リンクを用いず、絶対パスでリンクを張る必要がある。たとえば、ホームページにリンクする場合、
ではなく、
とすればいい。
こうしておけば、スクレーパーがコンテンツを盗んでコピーしても、リンクはこちらのページを指したまま残る、というわけだ。
ほかにも、もっと高度なテクニックでスクレーパーに対抗する手段はあるけれども、絶対確実なものは1つもない。自分のサイトの露出が増え、人気が高まれば高まるほど、コンテンツが盗用されて再利用される機会も多くなるんだと覚悟しなければならない。
この問題は、たいていの場合無視して構わないが、もしあまりに酷すぎて、スクレーパーが検索順位とトラフィックを奪っているとわかった場合、(米国ならば)デジタルミレニアム著作権法(DMCA)違反として法的手段に訴えることも検討するのがいい。運良く、SEOmozにはサラ・バードというお抱え弁護士がいて、彼女が米国における法務手続きについて役に立つ記事「Four Ways to Enforce Your Copyright: What to Do When Your Online Content is Being Stolen」(英文)を書いてくれているから、そちらも参考にしてほしい。
ソーシャルもやってます!