僕は今日(4月11日)の午後遅く、SMX Sydneyで、サイトレビュー・セッションのパネリストとしてダニー・サリバン氏と同席した(このイベントについては、また改めて詳しくお伝えするつもりだ)。
「クローキング」とは、サイトにアクセスしてきたのが人なのか、検索エンジンのクローラ(ロボット)なのかによって、異なるページの内容を表示する手法。検索エンジンに対してだけ特定のキーワードが詰まったページを表示するクローキングは、SEOスパムの一種だとみなされる。
僕たちがレビューすることになったサイトの1つに、オーストラリアのタスマニア観光局のサイトDiscoverTasmania.comがあった。そして僕らは、いろいろ調べている間に、オーストラリアの大手旅行サイトの1つであるFlightcentre.comが驚くべき「クローキング」を行っていることを偶然発見したんだ。
僕らはまず、タスマニア州の州都ホバートについて説明しているこのページからレビューを開始し、本文の冒頭部分にある「タスマニアの州都は同州の南東部に位置している(Tasmania's capital lies in the south-east of the state)」という短い文章を検索エンジンで検索して、このページに「重複コンテンツ」の問題がないかどうかを分析した。下の画像がそのページだ。
グーグルで検索してみたところ、下のような結果が得られた。見てのとおり、Flightcentre.comのページがDiscoverTasmania.comのページよりも上位にランクされているんだけど、何だかいかがわしさを感じる。キャッシュを表示できないようにしていることも、このサイトが何か隠したがっていることを示しているようだ。そこで、さらに詳しく調べてみることにした。Flightcentre.comのリンクをクリックしてみると、こちらのページにつながった。
「ユーザーエージェント(UA)名」とは、サイトにアクセスするのに使っているブラウザやOSの名前やバージョンをサーバー側に伝える項目。ウェブサーバーにアクセスする際には、ブラウザが自動的にユーザーエージェント名を送信している。
IE 6ならば「Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)」、Firefox 3ならば「Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9pre) Gecko/Minefield/3.0pre」のように、決まっている。
検索エンジンのロボットがサイトのコンテンツをクロールするためにアクセスする際にも、自分がクローラであることをユーザーエージェント名でサーバーに教えている。グーグルのクローラが使うユーザーエージェント名が「Googlebot」だ。
でも、ソースコードを調べてみても、問題のフレーズは見当たらない……このことから、僕らは即座に、このドメインがクローキングをしていると推測した。案の定、JavaScriptを無効にしてユーザーエージェント名を「Googlebot」に変えてアクセスしてみたところ、まったく異なる姿のページが表示された。
このサイトレビューは観衆の目の前で行ったので、これを見なかったことにするわけにはもちろんいかない。パネリストとしてグーグルのアダム・ラズニック氏も参加していたしね。セッションの後で観客たちと話したところ、Flightcentreは本当にオーストラリアの大手旅行会社の1つらしく、セッションの観客たちはこの件について、2006年にドイツBMWのウェブサイトが起こしたスパム事件と同じくらい重大なことだと感じているみたいだった。
この件から、次のような教訓が得られる。
- ユーザーエージェント名を使ったたクローキングは賢いやり方ではない――もし悪玉SEO的手法や、一概に悪玉的とは言えないまでも疑わしい方法でクローキングをやるんだったら、IPアドレスを使用しよう(だが、IPアドレスを使っていたとしても、Google Translateを使えばクローキングしている状態のページを第三者が見ることは可能だっただろう)。
- メタタグ(meta要素)でnoarchiveを使用してキャッシュ表示を隠すのは、何か疑わしいことが行われていることを示す明らかな印だ――これは、強盗事件が起きたばかりの銀行の前で、口笛を吹きながら所在なさそうなふりをしているようなものだ。
- あなたがだれであろうと、どこにいようと、SEOの知識を持っただれかが、あなたの巧妙な(今回はあまり巧妙ではなかったが)スパム行為を偶然見つける可能性は十分にある。
今回のケースがどのくらいとんでもないものかって? 実際のところ、それほどひどくはないんだ。
理屈の上から言うとガイドラインに違反してはいるが(それに、ラズニック氏があまりいい顔をしていなかったのも事実だ)、隠れていたテキストのみのコンテンツは、実際、画像があるバージョンのテキストと一致している。DiscoverTasmania.comのウェブサイトから持ってきたコンテンツも、正式な許可の下で使用しているのかもしれない(これについてはカンファレンスの場で検証することができなかった)。
結論を言えば、いくつかのページがリストから削除される可能性はあるが、グーグルがサイト全体を検索結果から締め出すことはないと思う。それよりも大きな問題は、クローキングという手法がいかにばれやすいものかということと、最悪の場面でそのことがばれてしまう可能がいかに高いかということだ。
追伸:カンファレスに参加したニーラブ・バット氏が、すでにこのテーマに関する記事を投稿したようだ(おまけに、白衣を着てSMX Sydneyでサイトレビュー・セッションを行っているサリバン氏やラズニック氏や僕が写った、すばらしい写真も掲載してくれている)。
ソーシャルもやってます!