今日は、ちょっとSEO的な話題を。robots.txtの内容を変えても、実はグーグルはすぐにはそれを反映してくれません。その説明と、「いますぐこのrobots.txtに更新」させる方法を解説します。
念のためにおさらいしておくと、robots.txtとは、グーグルなどの検索エンジンをはじめとする「機械的にWebページの内容を取得する」プログラムに対して、「このページは機械的にアクセスしていいよ」「このページはダメ」と指示する仕組み。
Webサイトのルートディレクトリに「robots.txt」というファイル名のテキストファイルを置いて、そこに指示を書きます。
たとえば検索エンジンにクロールしてほしくないページがあれば、robots.txt内で「Disallow(不許可)」という命令とともに指定しておくと、(robots.txtを尊重するシステムならば)それに従ってくれます。
ただ、このrobots.txt、グーグルはクロールのたびにチェックしているわけではありません。実際のrobots.txtを取得するのはだいたい1日に1回、または、数百ページクロールごとぐらいです。
つまり、robots.txtを修正しても、グーグルが前回取得したrobots.txtをキャッシュして使っている間は、その修正はすぐには反映されないということです。
でも、「今すぐに新しいrobots.txtを読み込んでほしい」という場合もあるでしょう。
そういうときはどうすればいいのでしょうか。
実は、ウェブマスターツールにそうした機能があります。
robots.txtファイルを更新したら、ウェブマスターツールで自分のサイトの[クロール]>[robots.txtテスター]を開いて、[送信]ボタンをクリックします。
すると、ダイアログボックスが表示されるので、[アップロードされたバージョンを確認]で正しいrobots.txtになっているのを確認してから、[送信]ボタンをクリックします。
これで、robots.txtファイルが更新されたことをグーグルに通知できます。
グーグルが最新のrobots.txtを認識しているかどうかは、同じくウェブマスターツールの[robots.txtテスター]で、上に表示されているバージョンの日付やrobots.txtの内容で確認できます。
ちなみに、robots.txtについては長らくrobotstxt.orgが標準的な参照先とされていましたが、グーグルはrobots.txtの仕様に関するドキュメントを公開しています。
- Robots.txtの仕様(Google Developers)
https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt
まだ英語版しかないようですが、かなり詳しく書かれていますので、robots.txtについて知りたい方は読んでおくといいと思います。
バックナンバー
この記事の筆者
安田 英久(やすだ・ひでひさ)
株式会社インプレス
Web担当者Forum 編集統括(初代編集長)
プログラミングやサーバー、データベースなどの技術系翻訳書や雑誌『インターネットマガジン』などの編集や出版営業を経て、Webサイト 「Web担当者Forum」初代編集長。ビジネスにおけるWebサイトの企画・構築・運用と、オンラインマーケティングの2軸をテーマにメディアを展開いる。現在は編集統括として媒体に携わる。
個人としては、技術とマーケティングの融合によるインターネットのビジネス活用の新しい姿と、ブログ/CGM時代におけるメディアのあるべき姿を模索し続けている。趣味は素人プログラミングと上方落語と南インドカレー。
- Twitter:@Hidehisa
- Facebook:https://www.facebook.com/hidehisa.yasuda
筆者の人気記事
矢印・特殊文字・記号一覧|コピペ・標準フォントで使用可能
2016年6月7日 11:00
URLとURIの違いとは? パーツの構造・名称・意味も大解説!
2010年3月9日 10:00
図と表のキャプションやタイトルの位置、違いはある? どこが正解?
2015年10月27日 11:00
PNGとJPEG画質の違いは? 拡張子でどう違う? ウェブ画像使い分けの基本
2018年4月17日 11:00
HTTPリクエスト/レスポンスとは? HTTPヘッダーを理解しよう
2010年1月12日 11:00
Twitterの始め方とは? ツイッターは何する所?など初心者必見ガイド
2009年9月29日 10:00