新しいコンテンツがグーグルに掲載されてから数日たった頃に、数時間ほど検索結果ページから姿を消してしまうことが、ときどきある。こうした現象は、SEO関係者の一部ではよく知られているようだ。
だけど、僕のようなプログラマにとっては初耳だったから、数か月にわたって取り組んできたプロジェクト(Linkscape)が、公開した週の金曜の夜に検索結果ページからすっかり消えてしまったと聞いたときには、僕はこのツールがグーグルの逆鱗に触れたんじゃないかと浮き足だって、もうちょっとで国外亡命の準備にとりかかるところだったよ。幸いにも、ランドが社内メールで教えてくれたとおり、Linkscapeは12時間後、何事もなかったかのようにグーグルの検索結果に復活した。
だが、この一件から「なぜ検索エンジンは、新しいコンテンツを数日間掲載した後で、数時間だけ検索結果から削除するのだろう?」という疑問が浮かんだ。はっきりしたことは僕にもわからないが、経験に基づいて原因を推測してみよう。
もしかしたら、小規模な(だが短時間で構築できる)インデックスからページが消えてから、より大規模な(だが構築に時間のかかる)インデックスがそのページを取り込んで再構築を終えるまでの間に、短い時間のギャップが生じることがあるんじゃないだろうか。
僕はグーグルで働いたことがないので、複数のインデックスがあるという確かな証拠はないが、そういうものがあるという議論を進めさせてもらいたい。
今のところLinkscapeでは、クロールしたコンテンツを結果として表示するまでに1か月以上かかっている。これを数週間程度に縮めろというなら手の届きそうな方法もいくつかあるが、検索エンジン並みに数時間程度まで短くするのは当分の間無理だろう。それをやろうと思ったら、Linkscape程度のインデックスといえども、計算に多数のコンピュータと、膨大な時間が必要だからだ。
では、検索エンジンはどのようにこの問題に対処しているのだろう? インデックスへのデータ挿入を随時行えるようにするという手もあるが、このやり方ではインデックスが複雑化し、効率も悪い。別の選択肢として考えられるのは、インデックスを2つ用意することだ。1つは、規模は小さいが迅速に更新できるインデックス、もう1つは、大規模で更新にも時間がかかるインデックスだ。小インデックスの方には、クロールした情報と大インデックスに保存されている情報との差分を蓄えておく。クエリを実行する際には、両方のインデックスをチェックする必要がある。もちろん、2つだけではなく、規模の異なるインデックスを何種類か用意しておくことも可能だが、グーグルが複数のインデックスを持っているだろうという基本的なポイントが変わるわけではない。
小インデックスからページが削除されるのは、そのページが大インデックスに取り込まれてからになるのだろうが、そうすると、小インデックスを再構築するまでの間、両方のインデックスに同じページが存在することになる。こういったデータの重複があると、小インデックスが必要以上に大きくなってしまう。その結果、可能な限り迅速にインデックスを再構築するということができなくなり、理想的な情報鮮度を保てなくなってしまう。だからおそらくグーグルは、重複や時間差が生じないよう、タイミングを完璧に調節しようとするだろう。
しかし、検索エンジンのクロール速度が速まってインデックスが大きくなり、インデックス作業が複雑化した場合や、あるいは、夏休みの課題研究としてインターン生にチェックをやらせてみたりすると、わずかな時間差が生じやすくなるという問題が持ち上がる。したがって、重複によってリソースを無駄にしても構わないというのでない限り、確実に時間差をなくすということは、おそらく非常に困難だろう。
僕の隣に座っている開発エンジニアのチャスは、この二重インデックスモデルを取り入れたインデックスをいくつか管理しているが、はっきり言って、そのインデックスでは時間差が生じていない。チャスはその理由として、大規模インデックスの再構築作業が作業負荷の軽くなる金曜の午前零時に始まることを挙げている。だが、彼のコンピュータはグリニッジ標準時(GMT)に設定されていて、それはつまり、再構築が太平洋標準時刻(PST)で金曜の午後5時に始まるということだ。さて、グーグルの検索結果からLinkscapeが削除されているとジェーンが最初に気付いたのは、金曜の午後5時過ぎだった(僕はジェーンからのメールを5時28分に受け取った)。グーグルは、CPUに関してはチャスよりも制約が少ないものの、新しいインデックスを多数のコンピュータへ送り出すのに必要な帯域幅に関しては、やはり制約を抱えている。
つまり、グーグルには、GMTの金曜日になった時点で立ち上がるべきインデックスが2つあったという推測ができる。僕らのページを取り込んだ新しい大インデックスと、そのページを抹消した新しい小インデックスだ。だが、時間どおりに動作したのは、小インデックスだけだった。
ともかく、僕が思いつく限り、これが最もよくできた推論だ。みんなはどう思う?
ランドからの追伸:これは、ベン・ヘンドリクソンがSEOmozに投稿した初めての記事だ。ベンは、1年ほど前にSEOmozのスタッフとなり、Linkscapeに取り組んでいるが、、それ以前はマイクロソフトに勤務しており、自分自身の技術系新興事業プロジェクトに関わっていたこともある。SEOmozのブログに寄稿してくれて感激している。できれば、近いうちに自分の写真をアップしてくれるといいんだけどな。
ソーシャルもやってます!