SMX West 2016、最終日のセッションです。Googleのポール・ハー氏を招いたセッションで、Googleの仕組みについて話してくれています。後半のQ&Aにゲイリー氏も登場しましたが、あまり多くは語りませんでした。もちろん、ランキングアルゴリズムを説明してくれるわけではないですが、普段はあまり聞く機会のないストーリーを語ってくれています。特徴的だったのは、大量の実験を行っていること。数々のトライアンドエラーと努力によって、精度の高い検索エンジンが生まれていることを垣間見ることができました。– SEO Japan
Danny Sullivan(Founding Editor, Search Engine Land, @dannysullivan)
Gary Illyes(Webmaster Trends Analyst, Google, @methode)
Paul Haahr(Software Engineer, Google, @haahr)
Googleのランキングエンジニアリングがしていること
- サーバーのためのコードを書く
- 新しいシグナルの研究や、新しい方法での古い複数のシグナルを組み合わせ
- Googleが使用する測定基準の最適化
- 品質評価に基づいた検索結果の修正
- 品質評価ガイドラインの修正や新しい評価基準の開発
今日のGoogle検索
モバイルファーストだ。今までにないくらい、モバイルからのトラフィックが多い。それは、Googleの考え方に影響を与えるほどだ。モバイルではタイプ(入力)ではなく、ボイスサーチやタップが使われる。そして、ユーザーのロケーションもかなり影響する。
様々な機能
サジェスト、オートコンプリート、計算機、ナレッジグラフ、マップ、画像、天気・・・。生活のあらゆる場面で利用されている。
10個のブルーリンク
検索結果画面の1ページにつき、青色で10本のリンクを表示する。これが、一番おなじみのスタイルだ。この表示方法の課題は2つある。1つは、”どんなドキュメントを表示するべきか?”であり、もう1つは、”それらをどんな順番で表示するべきか?”というものだ。ちなみに、私の仕事は収益とは関係がない。ただただ、ユーザーを見ている。
検索エンジンの2つのパーツ
検索エンジンには2つのパーツがある。
クエリの前段階
まずはWeb(サイト)をクローリングする必要がある。その後、クロールしたページを分析する。リンクの展開、コンテンツの読み込み(JavaScriptやCSSも合わせたフルレンダリング)、意味づけした注釈、などだ。その後、インデックスを構築する。
Webインデックス
本のインデックスと似たようなものだ。一つ一つの言葉が記載されるページの、全てのリストを作成する。それらを、何百万というグループに落とし込む。Googleでは、これらを”シャード(shards:破片、かけら)”と呼んでいる。Webインデックスには何千ものシャードがある。さらに、ドキュメントごとのメタデータもこれに加わる。
クエリの処理
クエリの理解と拡大が行われる。スコア付けも行われ、クエリの調整も加えられる。
クエリの理解
まず、該当のクエリが、よく知られたエンティティであるかを確認する。例えば、”san jose convention center(サンノゼコンバーションセンター)”、”matt cutts(マット カッツ)”などがそれにあたる。また、類義語の存在も確認する。例えば、”gm trucks”という場合、”gm”は”general motors(ゼネナルモーターズ)”だろう。しかし、”gm corn”の場合、”gm”は”genetically modified(遺伝子組み換え)”となる。そして、前後関係や背景などのコンテクストも確認する。
スコア付け
ここでは、全てのシャードにクエリが送られる。そして、合致したページの検索、クエリとページのスコアの計算、スコアごとに上位○○ページを送り返す、といった作業が全てのシャードで行われる。その後、全てのページが組み合わされ、スコア順に並べ替えを行う。
検索後の調整
クラスタリング、サイトリンク、重複、スニペットの確認などを行う。また、スパムが原因の順位下落や手動による調整の確認も行う。
スコア付けのシグナル
シグナルとは、スコア付けに使用される情報の一部であり、クエリに影響される項目と影響されない項目がある。クエリに影響されない項目は、ページの特徴となる項目だ。ページランク、言語、モバイルフレンドリーなどが挙げられる。クエリに影響される項目は、キーワード合致、類語、近接性などが挙げられる。
検索結果の品質の測定基準
「測定できなければ、改善できない」とあるように、測定基準は非常に重要だ。いくつか例を挙げてみよう。まずは、関連性だ。ユーザーからのクエリに対し、該当のページは有益な答えを提供しているか?これが、ランキングにおける一番の基準だ。次に品質が挙げられる。我々が提供している検索結果はどの程度良質なのか?、を見ている。また、結果を表示するまでの時間も重要となっている。もちろん、早ければ早いほうが良い。
Google自身の評価とその方法
我々は、我々自身の評価も行っている。具体的な手法は下記の2点だ。
- ライブ実験(実際の検索結果を使用した実験・調査)
- 人による評価実験
ライブ実験
他のWebサイトと同じように、実際のトラフィックでA/Bテストを行っている。また、クリックのパターンの変化も見ている。これは、おそらく、あなた方が考えているよりも難しい作業だ。こうした実験には多くのトラフィックが1つ、または、複数の実験で使われている。完璧な10個のブルーリンクとはなにか?そのために、沢山の実験を行っている。
人による評価実験
実際の人間に実験的な検索結果画面を見せ、どの程度良いかを尋ねている。評価者へのガイドラインを発行しており、自動化を図るべく、ツールの協力も得ている。実際の体験が、品質を伝えることになるからだ。昨年、Googleはガイドラインを公開した。我々が考える品質とは何か?を記載したものだ。
人による評価実験における2つの指標
ニーズメットとページクオリティという2つの指標がある。ニーズメットは、”該当のページがユーザーのニーズに合っているか”、を見る指標だ。完全に満たされている(Fully meets)から、満たされていない(Fails to Meet)まで、6個の段階がある。
ページクオリティは、”該当のページがどの程度良いページか”、を見る指標だ。E-A-Tという軸があり、それぞれ、”Expertise(エキスパート性)”、”Authoritativeness(権威性)”、 ”Trustworthiness(信頼性)”、を表している。
モバイルファーストの評価
ニーズメットの評価者に対し、モバイルユーザーのニーズに注力してもらうよう、依頼している。つまり、該当の検索結果がモバイルユーザーにとって、どの程度有益で、どの程度満たされたものになっているかを考えてもらう、ということだ。
モバイルを中心とするために
ユーザーの位置情報に非常に気を配る。また、モバイルのユーザー体験を表示するツールなども使用している。評価者にはスマートフォンでWebサイトを確認してもらっている。
ランキングエンジニアについて
数百人のコンピューターサイエンティストから成るチーム。我々の測定基準とランク付けのシグナルに注力している。多くの実験をしており、多くの変更を加えている。
開発プロセス
まずは、アイデアを出す。解決したい問題があり、そのためにはこのデータが使えそうだ、といった具合に。そして、コードを書き、データを作成し、実験を行い、分析する。これを、ローンチの準備ができるまで繰り返す。その後、定量データの分析チームからのレポートを受け、ローンチする。非常に長い時間がかかることもあり、最悪のケースは2年かかった。
2つの問題
もちろん、上手くいかない場合もあるが、その原因は2つ考えられる。1つは、評価の質が良くない場合であり、もう1つは、測定基準に問題がある場合だ。
評価の質が良くない場合
“texas farm fertilizer(テキサス 農場 肥料)”という検索をした際、ユーザーは肥料のブランドを知りたいと思っている。この製造企業の本社に行きたいと思う人はいないだろう。しかし、実際の検索結果は非常に遠く離れた本社のマップを表示していた。我々は、ライブ実験の結果からこの検索結果を変更することにしたのだが、実は、この検索結果に高評価を与えていた評価者がいた。このように、評価者による評価の質が悪い時がある。
測定基準に問題がある場合
2009年から2011年の間、低品質コンテンツへの不満が多くあった。しかし、我々の関連性における測定基準は、この期間、どんどん上昇していた。そのため、我々は自分たちはうまくやっていると考えていたが、実際は、我々が望むものを測定していなかったのだ。つまり、品質における測定基準は、関連性における測定基準と同じではなかったのだ。
Q&A
*Q&Aからダニー・サリバン氏とゲイリー・イリーズ氏が登壇しました。また、それぞれを下記のように記載します。
- ダニー・サリバン氏=”ダニー”
- ポール・ハー氏=”ポール”
- ゲイリー・イリーズ氏=”ゲイリー”
ダニー:RankBrainとインデックスの関係は?
ポール:RankBrainはシグナルのサブセットだ。RankBrainの仕組みについて、あまり詳しいことは話せない。
ダニー:RankBrainはオーソリティをどのようにして判断しているか?
ポール:トレーニングの成果によって可能だ。クエリとシグナルを見ている。しかし、皆様にとって有益なことはお話しできないと思う。
ダニー:エンティティは5年前に話していたような内容と変わりないか?
ポール:ナレッジグラフのことだろうか?もちろん、継続している。
ダニー:GoogleNowとクロームなどでデータは区別しているか?
ポール:ログインしているかどうか、ということだろう。我々は一貫した経験を提供しており、ブラウザの履歴などもそれに含まれている。
ダニー:一日のうちで、同じクエリで検索結果が変わっている
ゲイリー:マップやナレッジグラフの場合は、営業時間などで変わるかもしれない。しかし、確証は持てない。
ダニー:上手くいっていないという状況をどう判断しているのか?
ポール:実験を常に行っている。大量のメトリックスをそれぞれの実験で使っている。個別のクエリに当てはめている。
ダニー:パンダとペンギンについて
ゲイリー:ペンギンのローンチはもうすぐだと思うが、具体的な日付けはわからない。また、今後ローンチの予定日を伝えるのはやめようと思う。すでに数回失敗してしまっているし、ビジネスとしてよくないことだ。
ダニー:オーソリティについて、どのように計測しているのか?
ポール:詳細についてはお答えすることができない。しかし、我々は、評価者がオーソリティと思うことと同様に考えることができているか?を測定している。
ダニー:オーソリティは直接ランキングに影響するのか?
ポール:公定も否定もできない。直接的な回答があるほど、簡単なものではない仕組みになっている。
ダニー:rel=authorについては?
ゲイリー:rel=authorの将来的な活用を探っているチームが、少なくとも、1つある。私がSEO担当者であれば、タグを残したままにするね。しかし、新しいページを作成する場合は、わざわざ加える必要はない。
ダニー:CTRについて
ポール:CTRの実験はしている。パーソナライゼーションも考慮しながら。しかし、非常に課題が多い。ミスリーディングを起こすこともある。ちなみに、10位のCTRは8位や9位よりも高い。7位よりは低いが、おそらく、2ページ目に行きたがらないユーザーが多いのだろう。
Googleという巨大なプロダクトを構成するため、運用を含め、実に様々なチームが関わっているようです。今回のポール氏がお話してくれた内容は、その中でも核となる、ランキングに関わるチームのお話でした。おそらく、かなり簡略化した説明であると思いますが、それでも多くの項目を紹介してくれました。ゲイリー氏は、やはり、ペンギンについての質問を受けていましたが、大きな情報というものはありませんでした。ペンギンもプロダクトを構成する一要素であるため、すべての要素を細かく把握することは、非常に厳しいことなのかもしれないですね。今回の記事で、SMX West 2016のセッションレポートは全て終了となります。前回訪れてから2年も経っていることに驚きを隠せないのですが、今回も非常に刺激を受け、有意義なカンファレンスでした。今後もSEO Japanとして参加したカンファレンスのレポートを掲載したいと思いますので、引き続き、よろしくお願いいたします。m(__)m– SEO Japan