Googleが各種データを利用しているのは順位決定ではなく適合性フィードバックのため?
これまで僕が書いてきた記事は、ちょっと技術的になりすぎる傾向があったので、これからは単に、議論できそうなネタを提供したり、さらなる勉強に役立つソースを示すだけにとどめるよう努めていこうと思う。
Googleが検索ランキングを出すのに、行動データを使っていることが証明されたという記事(日本語関連記事はこちら)を慎重に検討したあと、僕はもう少し深く掘り下げてみて、その記事とはちょっと違う結論に達した。
先に言っておくと、Googleは集めた(集める)あらゆるデータを活用していると、僕は考えている。検索クエリのログ、Google Analytics、Google AdSense、Google Toolbar、ブラウザの拡張機能といったツール類や、DoubleClickおよびFeedBurner等々から集めたデータを、検索ランキングを決めるアルゴリズムと広告のターゲティング技術、どちらの改善にも利用しているということだ。僕の考えでは、だからこそこうしたツールをすべて無料で提供しているんだ。集められるデータの方がはるかに貴重だということ。あまりに価値があるから、Ask.comはそうしたデータの販売までも検討している。
WebGeekはGoogleの公式ブログを正確に引用しているので、以下に転記する。
(背景について少し説明させてほしい。まず今から数日前、Googleが検索結果での順位の決定に行動データを利用していることを示す公式ブログを読んで、Visio氏はその内容に反応した。Googleの公式ブログから一部を引用する)
「同様に、ログによって検索結果を改善できる。検索した人が1番目の検索結果をクリックしているとわかれば、われわれは正しいことになるが、もし次のページに移動したり、検索クエリを再び作り直しているなら、われわれは間違っていることになる。検索企業が自社サービスを継続して改善していく能力は不可欠で、それは、こうしたデータの通常かつ予期される利用法の一例にあたる」
Visio氏がやったような取り組みが出てきたのは、本当にうれしいことだ。もっと増えくれればと思う。実験を試みること、リサーチを行うこと、そして同業者が検討できるように成果を公開することを、僕らはSEO関係者に働きかけていくべきだろう。これは僕らが科学者たちから学べる、きわめて貴重な具体例だ。科学者が信頼されているのは、まさにこれをやっているからなんだ。
僕はSEOコミュニティの積極的な参加者ではないけど、何年も前からいくつかのブログを読んでいて、専門家の人たちのことをとても尊敬している。ただ1点、僕はずっと思っているのだけど、主張を裏付ける事実(調査報告、特許など)や実験を、もっと用意しようという試みが、もっとあってもいいのではないだろうか。検索エンジンはブラックボックスだから、アドバイスが私見に基づいたものになるのは仕方がないし避けられない。でも、SEOを学ぼうという人は、同じトピックについてネット上で矛盾した情報が見つかることに、非常に苦労している。
そこで僕は提案したいのだけど、SEOに関するさまざまな洞察を、ソース(調査報告、特許、実験結果など)による裏付けがあるものに限り、全部取りまとめるサイトを作ってはどうだろう。コンテンツにはオープンソースライセンスを適用すればいい。主張を証明する際にリンクするリファレンスとして活用するんだ。
それでは、Visio氏の調査結果について、すこしだけ異なる僕の結論を説明させてもらう。
僕は、Googleをはじめとする検索エンジンは、行動データを適合性フィードバックに利用していると思っている。適合性フィードバックって何だ? Wikipediaから引用する。
適合性フィードバックは、情報検索システムで使われる機能の1つである。適合性フィードバックでは、既知のクエリについて返された初期の結果を判断材料とする、そして、それらの結果と新しく実行されるクエリとの適合性に関する情報を利用する。適合性フィードバックは、3つのタイプに分けて考えることができる。明示的フィードバック(explicit feedback)、暗黙的フィードバック(implicit feedback)、そしてブラインドフィードバック(別名「疑似」フィードバック(pseudo feedback))だ。
適合性フィードバックは、簡単に言うと、順位決定の計算式が最良の結果を生んでいるか判断するのに、実際の検索者の入力を考慮するものだ。この情報の集め方はいろいろとあって、それによって、明示的だとか、暗黙的だとか、疑似だとか分けることができる。この講義ノート(PowerPointファイル)が、適合性フィードバックのプロセスを非常にわかりやすく説明している。この件について詳しく検討したい人は、一度読んでみるといい。とてもおもしろいから。
適合性フィードバックは、順位決定計算式のパラメータを微調整するのに用いられるのであって、式に因数として追加されるのではないことに注意しなければならない。
Googleは適合性フィードバックを利用しているのか
Googleオリジナルの検索エンジンのことを記述した論文の「今後の研究」(Future Work)の項を見ると、次のようにある。
……しかしながら、適合性フィードバックやクラスタリングといったほかの機能は、まだ研究が始まったばかりだ……
Googleが自社の検索結果の改善に、品質評価を利用しているのは有名な話で、これは、Googleがすでにシステム上で適合性フィードバックを利用している確たる証拠でもある。このタイプの適合性フィードバックは明示的フィードバックにあたる。信頼できる複数の検索者に、同じクエリに関して、さまざまな検索結果のセットが提示される。検索者は各自の判断において、適合性が高い結果を含むセットを選択する。通常、適切な検索結果を得るためにこれが何度か繰り返される。
さて、ここからが本当におもしろいところだ。暗黙的フィードバックでは、ユーザーの行動を観察して、ユーザーの検索意図を推測する。これについては、先に挙げた講義ノート(PowerPointファイル)にも詳しく書かれている。Google Analytics(などの資産)が収集したデータをうまく活用するというのは暗黙的フィードバックにあたる。
これは、次のように考えられる。Googleは、僕らや僕らのサイトに関して非常に多くの情報をもっている。したがって、Googleは僕らが考えていることに、かなり近づくことができる。
直帰率(バウンス率)、リピーター数、滞留時間などのデータは、検索結果の良し悪しを判断する最高の指標になる。
ところで、僕の結論とVisio氏の結論の違いはどこにあるのだろうか。
僕は、暗黙的フィードバックの情報が、順位決定の数式で因数として使われているとは思わない。Googleは算定式の変数を微調整するために、集めた情報を利用している、というのが僕の考えだ。あまりに多くのクエリが最高の結果を返せなくなれば、順位決定の数式自体が改変されることもあるかもしれない。
僕は、検索結果を直接クリックすることが、パーソナライズ検索ではない場合のGoogleの順位決定の数式に、直接的な影響を及ぼすとは思わない。そんなことをすれば、不正操作をしてくださいとドアを開いておくようなもので、Googleにとってあまりにも危険だ。
僕は、ごく少数のウェブサイトの行動情報が、検索順位に大きな影響を及ぼすとは思わない。順位決定の数式を変更すると、非常に多くのサイトに影響が及ぶ。
Singhal氏は多くの場合、自分が耳にしたすべてを大急ぎで修正することはしない。というのも、1つ1つの変更は、たくさんのサイトのランキングに影響を及ぼす可能性があるからだ。Singhal氏は「1件目の苦情で反応してはならない。機が熟するのを待つのだ」と語る。
もう3週間近くずっとブログを書いている。すごく楽しんでいることは僕も認めよう。実は、自分がこんなにハマるなんて思ってもいなかった。コメントやYOUmozの記事を通して考えを共有する機会を与えてくれた、RandとSEOmozの仲間に感謝したい。それから、僕の記事を参照してくれたり、すばらしいフィードバックをくれた、SEOコミュニティにもね。もう、みんな最高!
ソーシャルもやってます!