Moz - SEOとインバウンドマーケティングの実践情報

AI世代の検索エンジンについていくための「セマンティック検索」「エンティティ」基礎入門 (前編)

「セマンティック検索」やそこで言われる「エンティティ」とは何か。それは検索エンジンやSEOにどういう意味をもつのか
この記事の内容はすべて筆者自身の見解であり(ありそうもないことだが、筆者が催眠状態にある場合を除く)、Mozの見解を反映しているとは限らない。

SEOの専門家は、グーグルを味方につけようと多大な労力をかける。自らのコンテンツのすばらしさや、meta要素の工夫、オーガニック戦略の卓越性を確認するためだ。

しかし、そうしてまるで友人のようにグーグルにつきっきりでいるうちに、大局的な視点を失ってしまうことがある。つまり、「グーグルの(ときに魔法のような)検索結果は、会話を求めるアルゴリズムを基盤にしている」という事実を失念してしまうのだ。

アルゴリズムは多くの問題を解決できるし、実際に解決している。しかし、人間の会話のレベルに匹敵するアルゴリズムを開発するのは、きわめて難しい課題だ。それでもシリコンバレーの大手企業で働くエンジニアたちは、コンピュータサイエンスを何とか人工知能(AI)の領域に発展させようと取り組んでいる。AIや機械学習の世界における彼らの成果は目覚ましく、碁で新たなチャンピオンが生まれたり、地域の店舗にロボットの店員が現れたりしているほか、パーソナルアシスタント機能を備えたスマートフォンとの会話もさらに進化すると予測されている。

そして検索エンジンは、常にAIに関する取り組みを加速させる最前線にいる。グーグルは当初より、検索結果を自然な会話の領域に進めようとしており、セマンティック検索や、ひいては機械学習のアルゴリズムに分類されるものを戦略の大きな柱としている(RankBrainを考えてみてほしい)。

では、グーグルの検索結果で1位に表示されるには、実際どうすればいいだろうか? 結局のところ、ここで紹介する要素の多くは「シンプルな会話」という考え方に帰結する。

映画『エクス・マキナ』では、検索エンジンを手がける企業の創業者らがAIを開発するが、これも荒唐無稽とは言えなくなってくる。

セマンティック検索とは

「セマンティック」という言葉は、あるものの意味や本質を指す。検索に当てはめると、「セマンティック」は本質的に、言葉とその論理の研究に関連するものだ。

セマンティック検索は、文脈上の意味を通じて検索者の意図を理解することによって検索の精度を高めようとする。

セマンティック検索はまた、

  • 概念の一致
  • 同義語や類義語
  • 自然言語アルゴリズム

を通じて、構造化データや非構造化データを直感的で反応が速いデータベースに変換することで、よりインタラクティブな検索結果を提示する。

つまり、セマンティック検索を利用すると、検索者の意図をより深く理解できるほか、回答を選び出したり、よりパーソナライズされた結果を表示したりできる。グーグルのナレッジグラフは、セマンティック検索が劇的に進化するきっかけとなった。

検索エンジンはなぜ、セマンティック検索を追求するのか

検索エンジンの視点から捉えると、グーグルがなぜ、より「つながれた世界(connected world)」を追求しているのかは想像に難くない。よりつながれた世界とは、

  • より多くのデータが集まり
  • スパムが減り
  • ユーザーの意図に対する理解が深まり
  • (会話のような)自然言語による検索が拡大する

といった世界だ。こうしたデータをすべて理解できれば、検索を利用するユーザーが最善の結果を得られる可能性が最大限に高まる。

世界のデータ量は2年ごとに倍増しており、オンライン市場ではビッグデータが日常的になっている。しかし、こうしたデータがあっても「これが自分にとってどんな意味があるのか」という大きな懸念が生じる。データを整理し、構造化し、その意味に基づいて関連付けるプロセスは、検索エンジンが担いたいと切望する役割だ。

セマンティック検索がグーグルの役に立つ一例として、質の低いコンテンツを識別して除外することがある。

たとえば、

  • アーティクル・スピニング(既存のコンテンツを書き換えたり流用したりして類似のコンテンツを作成すること)
  • キーワード・スタッフィング(キーワードの詰め込み)

といった手法を見抜くのは、すでに簡単になっている。そのために用いられるのは、

  • 潜在的意味インデキシング(LSI)
  • 潜在的ディリクレ配分法(LDA)
  • 単語の出現頻度と逆文書頻度(TF-IDF)

による重み付けで、単語の出現頻度とあらかじめ定められた加重関係によって品質を判断する方式などの高度なシステムだ。

つまり検索エンジンは、統計的にみてどのような言葉がどのように組み合わされ、意味に基づいて関連付けられているかをよく理解しているということであり、これはスパムとの戦いに利用できる。

検索エンジンは、セマンティック検索エンティティベースの検索を利用することで、ユーザーの意図をより深く理解できる。

たとえば、次に示す画像は、エンティティベースの検索アルゴリズムでデータに含まれる要素を簡単に示したものだ。

ペット 居住 家族 きょうだい 息子 職場
ノード=エンティティ
属性/プロパティ/説明=関係
エンティティの意味に基づく分類(ノード)と属性(関係)を示す図

これに含まれるエンティティ(人、場所、モノ、概念、考え)はノードで示されており、関係を表す矢印で結ばれている。この図は、エンティティベースの検索がさまざまなエンティティ(この場合は『ザ・シンプソンズ』の個々のキャラクター)をどのように関連付けようとしているかを示している。

こうした関連付けの情報を利用することで、グーグルは、より検索意図に応える検索結果を表示できるようになる。

エンティティベースの検索の関連付けによって導き出されるナレッジグラフの回答

セマンティック検索は、今日における検索の意図をより完全な形で理解するのに役立つ。

たとえば、「Jennifer Lawrence(ジェニファー・ローレンス)」という検索は、映画『ハンガー・ゲーム』で主演し、ファッショニスタとして知られる米国の女優に関連している可能性が最も高い。そのためグーグルは、その検索結果には、ジェニファー・ローレンスに関するあらゆるニュース、写真、情報、ソーシャルメディアのアカウント、映画情報を提示する。

ニュース
プロフィール
経歴
ソーシャルメディア
画像
略歴
映画情報
関連人物
「Jennifer Lawrence」を検索すると、この女優に関するトピックだけが表示される。

検索エンジンは、エンティティを理解することにより、ジェニファー・ローレンスを検索する740万人の傾向からわかる膨大な量のデータと併せて、次に検索するユーザーの意図をさらに理解できる。グーグルによるナレッジグラフの発明は、文字列ではなくモノを理解しようとするグーグルの姿勢を示す格好の例だ。

グーグルをはじめとする検索エンジンは、さまざまなエンティティを認識して、疑問への回答を示すことにきわめて熟達している。データをこのように関連付けるからこそ、検索は強化されるのだ。疑問への答えはアルゴリズムによって理解される。

たとえば「『シャンデリア』に出ているダンサーは誰?」という検索をすると、マディー・ジーグラーの情報が表示される。グーグルは、検索クエリに「マディー・ジーグラー」という文字列がなくても、それが彼女に関する検索であることを「理解する」のだ。

ナレッジグラフは、検索クエリで挙げられていないエンティティ名を使って回答する。

検索エンジンがキーワードをエンティティに関連付けて、正しい答えを返せるという考え方によって、グーグルの検索は、ユーザーにとってはるかに建設的なものになる。

セマンティック検索のSEOへの影響

SEO担当者にとって、セマンティック検索を理解することには、いくつかの大きなメリットがある。その大部分を占めるのが、常に時代を先取りできることだ。検索エンジンは進化しており、SEOの専門家としては常に万全の態勢でいなければならない。音声検索がさらに勢いを増すにつれて、セマンティック検索は特に重要になるだろう。

セマンティック検索のシグナルを組み込む方法は、SEO戦略のアプローチに大きな影響を及ぼす。特定のエンティティに関連付けられたトピックやキーワードをすべて把握できれば、完璧なコンテンツを作成して、顧客にとって最適なランキングを実現できる。エンティティに関する情報は得られていないのが実情だが、セマンティック検索戦略を強化できる実証済みの戦略はいくつかある。

この記事は、前後編の2回に分けてお届けする。セマンティック検索について説明した今回に引き続き、後編となる次回はSEOにおけるセマンティック検索戦略を紹介する。→後編を読む

用語集
SEO / meta要素 / アーティクル・スピニング / スマートフォン / ソーシャルメディア / ロボット / 検索エンジン / 構造化データ
この記事が役に立ったらシェア!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

アクセシビリティ
広義には、障害者、高齢者を含むすべての人間が、同じレベルでサービスや機器、施設を ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]