robots.txt を効果的に使用する

robots.txt を効果的に使用する

"robots.txt" とは、検索エンジンにアクセスしクロールしてほしい部分と、そうでない部分を伝えるためのファイルです。このファイルは必ず "robots.txt" というファイル名でサイトのルート ディレクトリに置く必要があります。

野球カードサイトの robots.txt ファイルのアドレス
野球カードサイトの robots.txt ファイルのアドレス
Robots Exclusion Standard に準拠している検索エンジンのロボットすべて (* というワイルドカードのシンボルで表現される) に対し、/images/ 以下にあるコンテンツ、もしくは /search で始まる URL にあるコンテンツに、アクセスもクロールさせない
Robots Exclusion Standard に準拠している検索エンジンのロボットすべて (* というワイルドカードのシンボルで表現される) に対し、/images/ 以下にあるコンテンツ、もしくは /search で始まる URL にあるコンテンツに、アクセスもクロールさせない

検索エンジンの検索結果に表示されてもユーザーにとって便利ではないので、サイトの一部をクロールされないようにしたい場合があるかもしれません。このように検索エンジンにページをクロールさせたくないページがある場合には、Google ウェブマスター ツールにあるrobots.txt generator を ご利用いただくと、robots.txt ファイルを簡単に作ることができます。サブドメインを持つサイトで、ある特定のサブドメイン内のページをクロールさせないようにするには、そのサブドメイン用に別の robots.txt ファイルを用意する必要がありますのでご注意ください。robots.txt に関する詳細は、ヘルプ センターのrobots.txt の作成 をご確認ください。

検索結果にコンテンツを表示させない方法は、他にもいくつかあります。たとえば、"NOINDEX" を robots メタ タグに追加したり、.htaccess を使ってディレクトリにパスワードを設定したり、Google ウェブマスター ツールを使ってすでにクロールされたコンテンツを削除する、などの方法です。Google のエンジニアの 1 人、Matt Cutts がこれらのさまざまな方法について説明したビデオ (英語) がありますので、ご覧ください。

適切に robots.txt を使う

  • 慎重に扱うべきコンテンツにはより安全な方法を使用する ―― 慎重に扱うべきコンテンツや機密事項を含むコンテンツがクロールされないようにするには、robots.txt を設置するだけでは十分ではありません。その理由のひとつは、クロールできないように設定した URL であってもその URL へのリンクがインターネット上のどこか (たとえばリファラー ログなど) に存在する場合、依然として検索エンジンはその URL を参照できるからです (ただしこの場合 URL のみが検索結果に表示され、タイトルやスニペットは表示されません)。また、Robots Exclusion Standard に準拠しない検索エンジンや不正な検索エンジンなどは、robots.txt の指示に従わないかもしれません。そしてもうひとつ、好奇心の強いユーザーの中には、robots.txt にあるディレクトリやサブディレクトリを見て、あなたが見られたくないコンテンツの URL を推測する人がいるかもしれません。コンテンツの暗号化や .htaccess を使ってパスワードをかけて保護するほうが、より確実で安全な手段だといえます。

    注意点
    • 検索結果のようなページはクロールさせない (検索結果のページから、さほど価値が変わらない別の検索結果のページへ飛んでも、ユーザーの利便性を損なうだけです)。
    • 同一か、ほとんど違いがない自動生成されたページを大量にクロールさせないようにする。(「重複コンテンツに近いこれら 100,000 ものページはインデックスされるべきだろうか?」と問い直してみましょう)
    • プロキシ サービスによって生成された URL はクロールされないようにする
次のページへ
この記事が役に立ったらシェア!
みんなが読んでるWeb担メルマガで、あなたも最新情報をチェック
  • SEOやデジタルマーケの最新情報をゲット
  • 事例やインタビューも見逃さない
  • 要チェックのセミナー情報も届く
みんなが読んでるWeb担メルマガで、あなたも最新情報をチェック
  • SEOやデジタルマーケの最新情報をゲット
  • 事例やインタビューも見逃さない
  • 要チェックのセミナー情報も届く

Web業界の転職情報

もっと見る
Sponsored by

今日の用語

アンカーテキスト
HTMLでページからページへジャンプする「リンク」に使われるテキスト(文字列 ...→用語集へ

連載/特集コーナーから探す

インフォメーション

Web担のメルマガを購読しませんか?
Web担の記事がコンパクトに毎週届くメールマガジン「Web担ウィークリー」は、10万人が読んでいる人気メルマガ。忙しいあなたの情報収集力をアップさせる強い味方で、お得な情報もいち早く入手できます。

Web担に広告を掲載しませんか?
購読者数10万人のメールマガジン広告をはじめとする広告サービスで、御社の認知向上やセミナー集客を強力にお手伝いいたします。

サイトマップ
RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]