robots.txt を効果的に使用する

よろしければこちらもご覧ください

robots.txt を効果的に使用する

"robots.txt" とは、検索エンジンにアクセスしクロールしてほしい部分と、そうでない部分を伝えるためのファイルです。このファイルは必ず "robots.txt" というファイル名でサイトのルート ディレクトリに置く必要があります。

野球カードサイトの robots.txt ファイルのアドレス
野球カードサイトの robots.txt ファイルのアドレス
Robots Exclusion Standard に準拠している検索エンジンのロボットすべて (* というワイルドカードのシンボルで表現される) に対し、/images/ 以下にあるコンテンツ、もしくは /search で始まる URL にあるコンテンツに、アクセスもクロールさせない
Robots Exclusion Standard に準拠している検索エンジンのロボットすべて (* というワイルドカードのシンボルで表現される) に対し、/images/ 以下にあるコンテンツ、もしくは /search で始まる URL にあるコンテンツに、アクセスもクロールさせない

検索エンジンの検索結果に表示されてもユーザーにとって便利ではないので、サイトの一部をクロールされないようにしたい場合があるかもしれません。このように検索エンジンにページをクロールさせたくないページがある場合には、Google ウェブマスター ツールにあるrobots.txt generator を ご利用いただくと、robots.txt ファイルを簡単に作ることができます。サブドメインを持つサイトで、ある特定のサブドメイン内のページをクロールさせないようにするには、そのサブドメイン用に別の robots.txt ファイルを用意する必要がありますのでご注意ください。robots.txt に関する詳細は、ヘルプ センターのrobots.txt の作成 をご確認ください。

検索結果にコンテンツを表示させない方法は、他にもいくつかあります。たとえば、"NOINDEX" を robots メタ タグに追加したり、.htaccess を使ってディレクトリにパスワードを設定したり、Google ウェブマスター ツールを使ってすでにクロールされたコンテンツを削除する、などの方法です。Google のエンジニアの 1 人、Matt Cutts がこれらのさまざまな方法について説明したビデオ (英語) がありますので、ご覧ください。

適切に robots.txt を使う

  • 慎重に扱うべきコンテンツにはより安全な方法を使用する ―― 慎重に扱うべきコンテンツや機密事項を含むコンテンツがクロールされないようにするには、robots.txt を設置するだけでは十分ではありません。その理由のひとつは、クロールできないように設定した URL であってもその URL へのリンクがインターネット上のどこか (たとえばリファラー ログなど) に存在する場合、依然として検索エンジンはその URL を参照できるからです (ただしこの場合 URL のみが検索結果に表示され、タイトルやスニペットは表示されません)。また、Robots Exclusion Standard に準拠しない検索エンジンや不正な検索エンジンなどは、robots.txt の指示に従わないかもしれません。そしてもうひとつ、好奇心の強いユーザーの中には、robots.txt にあるディレクトリやサブディレクトリを見て、あなたが見られたくないコンテンツの URL を推測する人がいるかもしれません。コンテンツの暗号化や .htaccess を使ってパスワードをかけて保護するほうが、より確実で安全な手段だといえます。

    注意点
    • 検索結果のようなページはクロールさせない (検索結果のページから、さほど価値が変わらない別の検索結果のページへ飛んでも、ユーザーの利便性を損なうだけです)。
    • 同一か、ほとんど違いがない自動生成されたページを大量にクロールさせないようにする。(「重複コンテンツに近いこれら 100,000 ものページはインデックスされるべきだろうか?」と問い直してみましょう)
    • プロキシ サービスによって生成された URL はクロールされないようにする
この記事が役に立ったらシェア!
よろしければこちらもご覧ください
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

Web業界の転職情報

もっと見る
Sponsored by

人気記事トップ10(過去7日間)

今日の用語

Google Webmaster Central
自分のサイトをGoogleに登録するための管理ツール。 検索エンジンのクロ ...→用語集へ

連載/特集コーナーから探す

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]