Moz - SEOとインバウンドマーケティングの実践情報

重複コンテンツ問題を解決する12の手段 - 重複コンテンツ対策完全ガイド #2

重複コンテンツで問題が出た状態を解消するには、どのような方法があるのだろうか?

ページ

この記事はパンダ・アップデートによって変化した重複コンテンツの問題を広範に扱った長文の記事で、4回に分けてお届けしている。2回目となる今回は、重複コンテンツ問題を解決する手段を見ていこう。

IV 重複問題の解決に役立つ方法

説明の順番が適当でない感じがするかもしれないが、具体例の解説に進む前に、重複コンテンツに対処する方法をいくつか紹介しておきたい。そうしておけば、各事例を修正するための適切なお薦めツールを、混乱を招くことなく紹介できるだろうから。

ここで紹介するのは、次の12種類の方法だ。

  1. 重複ページを削除する
  2. 301リダイレクト
  3. robots.txt
  4. meta robotsタグ
  5. URL正規化タグ(rel="canonical")
  6. URLの削除(グーグル)
  7. パラメータによるブロック(グーグル)
  8. URLの削除(Bing)
  9. パラメータによるブロック(Bing)
  10. 「rel="next"」と「rel="prev"」
  11. link rel="syndication-source"
  12. サイト内リンクの構造
  13. 何もしない

それぞれについて詳しく解説していこう。

IV-1 重複ページを削除する

最も簡単な重複コンテンツ対処法はもちろん、該当するページを削除して404エラーを返すことだ。

そのコンテンツが本当に訪問者や検索エンジンにとって何の価値もないものなら、また重要な被リンクやトラフィックもないなら、すっきり削除してしまうのが完璧に有効な方法だ。

IV-2 301リダイレクト

ページを削除するもう1つの方法は、301リダイレクトを使うやり方だ。

404エラーと違って、301リダイレクトは訪問者に(人間でも検索ロボットでも)、該当ページが別の場所に恒久的に移動されたことを伝える。訪問者が人間の場合、ブラウザは自動的にリダイレクト先のページを表示してくれる。SEOの観点から見ると、被リンクが持つ信頼度の大部分は新しいページにも渡される。

重複コンテンツの正規URLがはっきりしていて、そのコンテンツがトラフィックや被リンクを獲得しているなら、301リダイレクトは有効な選択肢になり得る。

IV-3 robots.txt

もう1つの選択肢は、人間の訪問者には重複コンテンツが見えるようにしておくが、検索エンジンのクローラーは締め出してしまうというものだ。

これを実現する方法として最も古く、おそらく最も簡単なのがrobots.txtファイル(普通はルートディレクトリに置かれる)を使うやり方だ。たとえばこんな感じになる。

robots.txtのサンプルコード

robots.txtが持つ長所の1つは、フォルダ全体、場合によってはパラメータ付きのURLさえ比較的容易にブロックできることだ。

短所は、ちょっと強力過ぎて、時には信頼性に欠けるソリューションだという点だ。robots.txtはクローラーがまだアクセスしていないコンテンツをブロックするのには効果的だが、すでにインデックス化されているコンテンツを削除する方法としては有効ではない。

主要な検索エンジンもrobots.txtの多用を嫌っているようで、一般に重複コンテンツ対策としてはrobots.txtを推奨していない

IV-4 meta robotsタグ

HTMLの<head>要素内でmeta robotsタグ(またはmeta noindex)を使って、ページ単位で検索ロボットの行動を制御することもできる。最も簡単な指定は次のようになる。

meta robotsタグのサンプルコード

このディレクティブは検索ロボットに対して、あるページをインデックス化しないように、あるいはそこにあるリンクをたどらないようにと指示する。ついでに、僕はこちらの方がrobots.txtよりも若干SEOと親和性が高いと思うし、プログラムで動的に生成できるので、より柔軟な使い方ができることも多い。

meta robotsタグのcontent属性値として、上の例で挙げた「noindex, nofollow」以外によく使われるのが「noindex, follow」だ。こうしておくと、そのページはインデックスに追加されないが、ページ上にあるリンクは検索ロボットにたどってもらうことができる。サイト内検索の結果表示のようなページではこれが役に立つ。検索のしかたによって何通りも生成されるURLのうち、ある形式のものはブロックすべき(これについては後で説明しよう)だが、それでも製品ページへのリンクはたどってもらわなければ困るだろう。

ここで一言。「index, follow」というmeta robotsタグをページに追加する必要はまったくない。すべてのページは、(他の方法でブロックされていなければ)何もしなくてもインデックス化され、リンクもたどってもらえるので、そうするように指示するのは無駄なのだ。

IV-5 URL正規化タグ(rel="canonical")

2009年、検索エンジン各社が手を組んで、rel="canonical"というURL正規化タグを作り出した。単に「rel="canonical"」とか「カノニカルタグ」と呼ばれることもあるこのディレクティブを使うことで、ウェブマスターはすべてのページについて正規バージョンのURLを指定できるようになった。

このタグは(meta robotsタグと同様に)HTMLページの<head>要素内に置かれる。簡単な例を次に示そう。

URL正規化タグのサンプルコード

検索ロボットがカノニカルタグのあるページにやってくると、そこへたどりつくのに使ったURLが何であれ、正規のURLをそのページのURLとみなす。だから、たとえば検索ロボットが上に挙げた例のようなカノニカルタグが書かれているページにたどりついたURLが「www.example.com/index.html」だったとしても、そのページのURLは正規化指定されているURLと比べると「index.html」が付いている非正規URLなのでので、検索エンジンは余計な非正規URLをインデックス化しない。流れ込んでくるリンクジュースも、通常はカノニカルタグを通じて引き渡されているようだ。

ここで指摘すべき重要な点は、ウェブサイトのあらゆるテンプレートに対して、どれが正しい正規ページなのかを明確に把握しておく必要があるということだ。サイト全体を1つのページで正規化したり、間違ったページで正規化したりすると、悲惨な結果を招く可能性がある。

用語集
Googlebot / Googleウェブマスターツール / HTML / SEO / XMLサイトマップ / nofollow / robots.txt / インデックス / キャッシュ / クローラー / クロール / ディレクトリ / ドメイン名 / ボット / リンク / ロボット / 検索エンジン / 被リンク / 訪問者 / 重複コンテンツ

ページ

この記事が役に立ったらシェア!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

インデックス
検索エンジンがWebページをデータベースに保存しているデータベース。データベース ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]