検索エンジンは、僕らが思っているよりかなり賢いことが多いのだけれど、検索エンジンがこれほどまでの「知能」をもったのは、1つには、何億ページものウェブページを巡回してデータを集めているからなんだ。
そこで今日は、検索エンジンのビジュアルツアーを開催して、意味論的な解析や理解の方面で検索エンジンが行っている処理や機能について見ていこう。
GoogleのクローラであるGooglebotは、ウェブ上に広がる膨大な数のページを巡回して、膨大な量のテキストコンテンツをインデックス化していく。その量は、世界中の図書館をすべて一緒にしたものの数千倍にも匹敵するんだ。
こうしてインデックスに収められた大量のデータを元にして、Googleは単語やフレーズの出現率や使用頻度を推計している。
単純な例を1つあげると、Googleは2つ以上の単語あるいはフレーズの関係を計算できる。上の図の例で、Googleは「Spain」(スペイン)と「Iberia」(イベリア)が意味的に結びつくのではないかと認識している。
Garcia博士による「語の共起」のレッスンを思い出してみよう。関係がどのように計算されるのか、ごく大ざっぱだけど理解できるだろう。
もちろん、Googleのやり方はもっと高度で、各ページやページ内のセクションを細かく分けて分析している。たとえばGoogleは、文や段落の中で非常に接近して現れる頻度が高い語やフレーズに対し、より強い関係を設定するということができる。
こうした技術がもっと洗練されてもっと高度になれば、Googleは意味の連関に関して、ほとんど人工知能(AI)と呼べる域にまで達するかもしれないね。
ロボットと怖そうな機械グモだけど、よく頑張っていると思わない? それで知りたいのは、SEOやコンテンツの立案やウェブサイトの構築といった作業に、これがどのように関係してくるかということだよね?
ここまでのことを踏まえて、いかに最適化すればいいのか僕なりに仮説を立てたので、それを挙げていこう。
サイトの構成は意味的に整理されたものに
検索エンジンが、どの語とどの語が互いに関連するというデータを活用しているのだから、サイト内のコンテンツの見取り図を作る際は、できる限り論理的に分類しておいて損はない。普通は、常識にしたがってやればうまくいくのだけど、いざというときはいつだって3つ目の図にある共起計算を利用できる。たとえば、このチキンストックのレシピは果たして「フランス料理」なのか「アメリカの伝統料理」なのか、なんてときには、すかさず共起計算をやってみよう。関連する語/フレーズを使ったコンテンツを作成する
たとえば、「住宅ローン」という語をターゲットにしてサイトを作っている。ところが、コンテンツの大半は賃貸物件に関するものだ。そんなときには、より関連度の高いコンテンツと結びつくように変えてみるのが有益だってわかるよね。意味的に関連したページからリンクを獲得する
スノーボードを扱う自分のページにとってサーフィンに関するページからのリンクが、意味的な関連性の面で有益かどうか確かめたければ、単語の共起を計算するというすばらしい方法がある。ページがランクされる理由を理解する
ページのランクを見て、それからドメインや被リンクを確認してみて、頭を掻きむしりたくなることがあるだろう。「なんでまたこんなページが僕のページよりランクが上なんだ?」ってね。そんなムカツク思いを何度となく繰り返しているうちに、僕は次のことがわかった。詳しく分析してみると、僕のドメインやページにリンクしているページは多くの場合、ライバルページににリンクしているページよりも、「関連性」が大幅に低かったみたいなんだ。被リンクの総数やドメインの権威がもつ影響力は大きいけど、意味的なつながりやトピックとの関連性もまた、ページランクに反映されていることは間違いない。検索エンジンの未来像を感じとる
Googleは数年間で、リンクの「意図」を割り出せるほど優秀になると思う? リンク付近の文や段落から心理的な「きっかけ」を抽出できるほどまで、意味に関する処理能力を獲得する可能性はあるだろうか? そしてそれを、リンクの重要度や信用度を決定する際に活用するようになるだろうか? たぶんそうなるよ。
僕自身、たいていの仕事では共起計算を多用していないし、コンサルティング契約のなかでその話題が出ることは、実はまれな話だ。だけど、検索エンジンについて深く知れば知るほど、そして、検索結果を見たときに裏にある仕組みのことがわかるようになるほど、優れたSEOを施せるようになるのだと確信している。
この手のデータや関連する意味解析についてほかに何か知っていれば、ぜひ聞かせてほしい。僕自身、まだ疑問に思っていることが1つあるんだ。検索エンジンはランクを決める際に、語やフレーズの共起に関する統計的な確率をどんなふうに反映させているのだろう。これについては、リンク先のページでGarcia博士が具体的に取り上げている。
ソーシャルもやってます!