robots.txt を効果的に使用する
robots.txt を効果的に使用する
"robots.txt" とは、検索エンジンにアクセスしクロールしてほしい部分と、そうでない部分を伝えるためのファイルです。このファイルは必ず "robots.txt" というファイル名でサイトのルート ディレクトリに置く必要があります。
検索エンジンの検索結果に表示されてもユーザーにとって便利ではないので、サイトの一部をクロールされないようにしたい場合があるかもしれません。このように検索エンジンにページをクロールさせたくないページがある場合には、Google ウェブマスター ツールにあるrobots.txt generator を ご利用いただくと、robots.txt ファイルを簡単に作ることができます。サブドメインを持つサイトで、ある特定のサブドメイン内のページをクロールさせないようにするには、そのサブドメイン用に別の robots.txt ファイルを用意する必要がありますのでご注意ください。robots.txt に関する詳細は、ヘルプ センターのrobots.txt の作成 をご確認ください。
検索結果にコンテンツを表示させない方法は、他にもいくつかあります。たとえば、"NOINDEX" を robots メタ タグに追加したり、.htaccess を使ってディレクトリにパスワードを設定したり、Google ウェブマスター ツールを使ってすでにクロールされたコンテンツを削除する、などの方法です。Google のエンジニアの 1 人、Matt Cutts がこれらのさまざまな方法について説明したビデオ (英語) がありますので、ご覧ください。
適切に robots.txt を使う
慎重に扱うべきコンテンツにはより安全な方法を使用する ―― 慎重に扱うべきコンテンツや機密事項を含むコンテンツがクロールされないようにするには、robots.txt を設置するだけでは十分ではありません。その理由のひとつは、クロールできないように設定した URL であってもその URL へのリンクがインターネット上のどこか (たとえばリファラー ログなど) に存在する場合、依然として検索エンジンはその URL を参照できるからです (ただしこの場合 URL のみが検索結果に表示され、タイトルやスニペットは表示されません)。また、Robots Exclusion Standard に準拠しない検索エンジンや不正な検索エンジンなどは、robots.txt の指示に従わないかもしれません。そしてもうひとつ、好奇心の強いユーザーの中には、robots.txt にあるディレクトリやサブディレクトリを見て、あなたが見られたくないコンテンツの URL を推測する人がいるかもしれません。コンテンツの暗号化や .htaccess を使ってパスワードをかけて保護するほうが、より確実で安全な手段だといえます。
注意点- 検索結果のようなページはクロールさせない (検索結果のページから、さほど価値が変わらない別の検索結果のページへ飛んでも、ユーザーの利便性を損なうだけです)。
- 同一か、ほとんど違いがない自動生成されたページを大量にクロールさせないようにする。(「重複コンテンツに近いこれら 100,000 ものページはインデックスされるべきだろうか?」と問い直してみましょう)
- プロキシ サービスによって生成された URL はクロールされないようにする
ソーシャルもやってます!