グーグル検索の基本、クローリング、インデックス、サイトマップなどの質問に回答 | グーグル検索公式Q&A #1
今回は、グーグル検索の基本である「クローリング」「インデックス」「サイトマップ」など、次の3つの質問にお答えします。
- 404エラーのページを放置するとサイトに悪影響を与える?
- サイトマップはこまめに更新したほうがいい?
- 日本語ドメイン名のキーワードは変換後も理解されている?
詳しくは以下をご覧ください。
404エラーのページを放置するとサイトに悪影響を与える?
リニューアルで削除したページが1年ぐらいたってもクロールされ続けていて、404が発生しています。代替ページがないため、301リダイレクトの対象にならないのですが、クロール頻度に悪影響はないのでしょうか。404対象ページをrobots.txtでクロール対象にしないなど、対応が必要ですか。
404を返しているページに何度もクローラーが訪れる理由は、そのページに404が設定されたことに間違いなどがなく、実際にそのページが確かに消えていることを確認するためです。この期間は比較的長く、場合によっては数か月間もクロールされ続ける場合があります。
ここでお伝えしておきたいのは、このような存在しないページへのクロールエラーは、一般的によく見られることであり、通常特に気にすることはありません。特に悪い影響はありませんので、404対象ページをrobots.txtでクロール拒否する必要はありません。また、クロールエラーについては「ウェブマスター ツール」でも検知することが可能です。
詳しい情報は、Google ウェブマスター向け 公式ブログの記事「404 はサイトに悪影響を与えますか?」をご覧ください。さまざまな404の例を解説しています。
サイトマップはこまめに更新したほうがいい?
サイトマップの有無が、検索エンジンの評価に与える影響はどの程度でしょうか。ないよりはあった方がいい程度ですか、それともこまめに更新するのがいいのでしょうか。
サイトマップに関しては、いくつかご質問をいただきましたが、まずはヘルプ記事「サイトマップについて」をご覧いただければと思います。
サイトマップは、検出が難しいサイトのページの情報をGoogleにわかりやすく提供するための手段です。簡単に言うと、ウェブサイト上にあるページのリストのことです。
Googleの検索エンジンは、クローラーを使ってページ上のリンクをたどり、サイト内にどのようなページがあるかを把握しています。多くの場合、サイト内のページは自動的に検出されますが、サイトの構造やページ内のリンクの構造によっては、なかなか発見されないページやクロールされにくいページが生じるケースがあります。
そこで役立つのがサイトマップです。サイトマップを利用すると、Googleやその他の検索エンジンは、サイト上のすべてのページのURLを把握することができます。また、サイトマップにはURLの更新日時を含めたり、画像やビデオコンテンツの情報を追加することも可能です。そのため、これまで検索結果に表示されなかったものが表示されるようになる可能性がありますので、サイトマップが与える影響は、大きいと言えるでしょう。
サイトマップの更新頻度については、サイトの内容に変更がないのなら更新していただく必要はありませんが、内容が更新された場合や新しいページが追加された場合は、サイトマップも更新することをおすすめします。
日本語ドメイン名のキーワードは変換後も理解されている?
日本語ドメイン名に含まれるキーワードは、Punycode(ピュニコード)※1でエンコードされていても理解できるというのは間違いないですか。日本語ドメイン名にページに関するキーワードが含まれていた場合、英語の場合のようにポジティブに働くのでしょうか。
Punycodeでエンコードされたキーワードを含むURLでも、そのキーワードで検索することは可能ですのでご安心ください。また、ランキングやインデックスにおいて、日本語ドメインや日本語を含むURLは、英語のものと同様に扱われます。
Punycode(ピュニコード)とは、ドメイン名に英数字以外の文字を使えるようにした規格の「国際化ドメイン名」を英数字(ASCII)に変換する仕組み。Punycodeで変換すると、英数字以外の文字列を既存のDNSサーバーでも扱うことができる。
たとえば、「日本語.jp」をPunycodeで変換するとドメイン名は次のようになる。
- 変換前:http://日本語.jp
- 変換後:http://xn--wgv71a119e.jp
Web担の参考記事:ブラウザー競争と日本語ドメイン名/知って得するドメイン名のちょっといい話 #1
ソーシャルもやってます!