このページは、外部サイト
SEO Japan の情報をRSSフィード経由で取得して表示しているため、記事の一部分しか表示されていなかったり、画像などが正しく表示されなかったり、オリジナル記事が意図したデザインと異なっていたりする場合があります。
完全な状態のオリジナル記事は 「
Googleからページを削除する方法: ウェブマスターに贈る完璧なガイド」 からご覧ください。
作成中のページや誤ってアップしてしまったページがグーグルにインデックスされて困った、、、という経験がある方はいるでしょうか?もしくは制作会社の方であればクライアント企業から「グーグルにインデックスされたページを即効で削除してほしい」と頼まれ、困ってしまった経験はないでしょうか?そんな時に役立つかもしれないこの記事をSEO by the Seaから。 — SEO Japan サイトのオーナーなら、通常、グーグルに出来るだけ多くのページをインデックスしてもらいたいはずだ。しかし、グーグルに公開したくないコンテンツや投稿したくない情報を誤ってインデックスされてしまい、出来るだけ早く削除したくなるときがあるはずだ。自分が所有するコンテンツ、そして、自分のサイトに投稿したコンテンツをグーグルの検索結果から削除する方法を詳しく知りたいなら、是非、このエントリを読み進めていってもらいたい。 最初からコンテンツをグーグルの検索結果から除外しておく 理想を言えば、グーグルのインデックスに載せたくないなら、絶対にそこに行き着かないようにしておきたい。そのためには以下の方法が最善と言えるだろう: ログインしなければ情報にアクセスすることが出来ないようにする – この方法は、当然ながら、グーグルを外す効果があるだけでなく、自分が認めた人だけがコンテンツを見れるようにする効果もある。このメソッドが役に立つのは、クレジットカードの番号やソーシャルセキュリティナンバー等の個人情報を非公開にしたい場合、そして、有料コンテンツへのアクセスを管理したい場合が挙げられる。 ロボット排除プロトコルを使って、検索エンジンによるコンテンツのクロール/インデックスをブロックする – robots.txtファイル、robotsのメタタグ、または、X-Robotsのタグをページのヘッダーに利用し、コンテンツをブロックすることが出来る。Disallowステートメントをrobots.txtファイルで用いると、グーグルによるページのクロールを回避することが出来るが、URL自体はインデックスされてしまう可能性がある。noindex robotsのメタタグをページで使うと、グーグルボットはページをクロールするものの、ページのコンテンツのインデックスまたはURLを検索結果に表示させずに済む(グーグルは非公式にrobots.txt内のNoindexのディレクティブに従うものの、このディレクティブの対応は公式には認められているわけではないため、コンテンツをグーグルの検索結果から締めだす方法としては理想的ではない)。 グーグルウェブマスタートレンドのアナリスト、ジョン・ミューラー氏は、先日、コンテンツを加える1日前にrobots.txtファイルをアップデートして、コンテンツをブロックするように提案していた。なぜなら、グーグルはサイトのrobots.txtファイルを24時間キャッシュするからだ。 コンテンツをグーグルの検索結果から外すための効果のないメソッド コンテンツのオーナーは様々なメソッドを試し、コンテンツをグーグルの検索結果から弾こうとするが、効果のないメソッドもある: ページにリンクを張らない – URLにリンクがないからと言って、グーグルがクロールしないと言い切ることは出来ない。また、自分のサイトのページにリンクを張っていなくても、その他のサイトがリンクを張る可能性がある。 nofollow属性をページへのリンクに利用する – グーグルはnofollow属性を持つリンクは追跡しないものの、グーグルがリンクを張られたページをクロールしないと言い切ることは出来ない(先程も説明したように)。 JavaScriptもしくはフラッシュのページにリンクを掲載する – グーグルボットはこの類のフォーマットのクロールを改善しているため、グーグルにリンクを見せないようにするためにこれらのページに頼るべきではない。 コンテンツをフォームの裏に掲載する – 少なくとも既に約2年前から、グーグルはフォームのクロールを試している。 インデックスされたサイトのコンテンツを削除する グーグルの検索結果からコンテンツを外すためのメソッドを利用したにも関わらず、インデックスして欲しくないコンテンツが結局検索結果に掲載されてしまうことがある。「for internal use only」、「embargoed」、そして、「this document contains proprietary information」等の用語で検索を実行してもらいたい。このコンテンツを素早く削除するにはどうすればいいのだろうか?グーグルが検索結果をウェブで利用できるかどうかを基準に表示している点をまず思い出してもらいたい。そのため、ただ単にグーグルのコンテンツを削除を要請するだけでは意味がない。それでは結局次回クロールされてしまうことになる。 まずは、robots.txtまたはrobotsのメタタグを使ってコンテンツをブロックするか、サイトからコンテンツを削除し、404か410のステータスコードをURLに返す必要がある。 いずれかの作業を終えたら、グーグルがページを再びクロールし、コンテンツが自動的に省かれるのを待てばよい。 待ちたくないなら、グーグルのURLリムーバルツールを使って、コンテンツをすぐに削除してもらうよう要請することも出来る。グーグルウェブマスターツールの認証済みのサイトにアクセスし、「Site configuration > Crawler acess > Remove URL」を順にクリックする(サイトの所有権を認証することが出来ないなら、個人情報をGoogleから削除する方法で紹介した一般の削除ツールを利用しよう)。 すると、ダッシュボードが表示され、URLの削除要請を管理することが出来る。「New removal request」をクリックし、削除したいURLを入力しよう。次に、「Remove the [...]