このページは、外部サイト
SEO Japan の情報をRSSフィード経由で取得して表示しているため、記事の一部分しか表示されていなかったり、画像などが正しく表示されなかったり、オリジナル記事が意図したデザインと異なっていたりする場合があります。
完全な状態のオリジナル記事は 「
Googleの品質スコアを取り上げた特許はパンダの生みの親?」 からご覧ください。
今年前半、グーグルのパンダアップデートがSEO業界を席巻しましたが、今回はSEO by the Seaが発見したグーグルの特許にパンダアップデートの秘密が隠されているかもしれない?!という注目の話題を。考えながら読み進めないと途中で何の話かわからなくなる可能性大のマニアックな記事ですので覚悟して読むべし。 — SEO Japan 2005年、グーグルのジョン・ランピング氏は、カリフォルニア大学バークレー校で「インターネットでは、誰もあなたが犬であることを知らない」(PDF)と言うタイトルの情報の品質に関する講演を行った。この講演の中で、ランピング氏は以下のような問題を提起した: なぜ英語のサイトがドイツ語のページに広告を出しているのか? 検索エンジンをスパムすることで、スパム産業はいくら儲かるのか? 講演の中で、同氏は、スライドでも紹介されているように、穴埋めゲームのようにページのテンプレートにキーワードを挿入する手法、クローキング、そして、ページを最適化するその他のスパムのアプローチ、有料リンク、コメントスパム等、検索結果を操作する方法を指摘していた。また、検索の質についてアカデミックなオーディエンスに説明する取り組みに加え、ランピング氏は検索結果の品質を高める取り組みも行っている。 私はジョン・ランピング氏が考案者に名を連ねる特許を「検索者のクエリがグーグルのカスタマイズ検索の結果に影響を与える仕組み」と言うタイトルのエントリで取り上げたことがある。私はこの投稿で、関連するクエリの結果に注目することで検索ランキングを改善する方法を説明する2003年の特許を解剖していた。2005年、ランピング氏は、マーク・ピアソン氏と本日グーグルに付与された特許を共同で考案している。この特許は、検索クエリの結果を基に文書とサイトに対して品質のシグナルを作成し、利用する方法を描写している。 「最高」の検索結果を返す 大半の特許は、解決したい問題点を説明するセクションを用意している。付与されたばかりのこの特許では、少なくとも一部のクエリに対して品質のスコアを追加することで、文書の品質の評価に応じて、検索に対して最高の結果を返すことを目的としていると明言している。 この特許が作成された2005年では、クエリに対して返されるページの品質は、文書がクエリにどれだけ関連しているかに基いて計算されるインフォメーッションリトリーバル(IR)スコア、そして、ページに向かうリンクの数をベースとしたスコアを使って計測されていた。 このIRスコアは、クエリとウェブページ上の言葉の間のマッチに注目して作成されると考えられている。クエリ内およびページのタイトル内でマッチする言葉は、クエリとページのフッターでマッチする言葉よりもスコアが高い。マッチするテキストが大きなテキスト、太字のテキスト、または、イタリック体で見つかったら、そのテキストは通常のフォントのテキストよりも重要視されるだろう。 クエリ内の全ての用語を含むページは、1つまたは少しか用語を持たないページよりも、高いIRスコアが与えられると考えられる。 このようなシグナルやその他の同様のタイプのシグナルは、組み合わされ、検索結果のページの品質を決定するIRスコアがページに対して作成されるだろう。 IRスコアをページに採用する試みに加え、検索エンジンはページとページの間のリンクの構造に注目し、ページを格付けしている可能性があるが、リンクの構造が“存在しない、信頼性が低い、または範囲が限られている”こともあると特許は示唆している。その場合、効用と価値は制限される。 IRおよびリンクアナリシスに基づくスコアの欠点を克服するため、検索エンジンが検索結果で見つけたその他のクエリとページの「関連性」を分析する手がある。品質スコアは以下のポイントを考慮して作成される可能性がある: ページに妥当な異なるクエリ 当該のページに向けられているアンカーテキストは何か クエリ内のテキストが当該のページでどれだけ目立っているか クエリに対して検索者がそのページを選ぶ頻度はどれぐらいか 検索エンジンにクエリを入力する際、明確にそのクエリを求めているのだろうか、それとも、既に頭の中に浮かんでいるページをリクエストしているのだろうか?それは、最近、ナビゲーショナルクエリと呼ばれるクエリだろうか?その場合、それは当該のページの質のシグナルかもしれない。例えば、[ESPN]を検索する際、ESPNのホームページを探している可能性が高い。[ESPN]に対する検索およびESPNのホームページの選択を、グーグルは品質のシグナルと考えるだろう。 このようなクエリの用語、そして、検索結果からページに向かうリンク内のアンカーテキストを比べた際、リンク内のテキストはクエリの用語と似ている、または同じことが多いか?そのページは、同じ検索結果の別のページよりも、当該の用語を使ってページに向かうリンクを多く持つ傾向があるか?繰り返すが、これは当該のページの品質のスコアとして見られる可能性がある。 [ESPN]をグーグルで検索するなら、検索結果内の他のページよりもESPNを含むリンクを多く持つページが1つまたは2つ存在する。繰り返すが、これはこれらのページに対する「品質」の明るい材料となる。 数名の検索者が同じクエリまたは同様のクエリを使い、特定のページを選ぶ傾向がある場合、その点もそのページの品質のスコアを高めるであろうシグナルである。[ESPN]を検索している人達の大半がESPNのホームページを選んでいるなら、グーグルは品質のシグナルとして記録するだろう。 本日、グーグルに付与された特許を紹介する: 検索クエリのストリームから文書とサイトの品質のシグナルを引き出し、利用する考案: ジョン・ランピング マーク・ピアソン 付与先: グーグル 米国特許番号: 7,962,462 付与日: 2011年6月14日 申請日: 2005年5月31 概要 検索ストリームを分析して、文書と検索ストリーム内のクエリの間の関連性を検知するシステム。さらにこのシステムは、検知された関連性を基に文書に対する値を引き出し、引き出した値を使って、後続のクエリに関して文書の質を評価する。 品質のスコアとパンダアップデート 今年の2月24日、グーグルのマット・カッツ氏とアミット・シンガル氏が共同で、より高い品質のサイトを検索で探すと言うタイトルのエントリをグーグルの公式ブログに投稿していた。このエントリは、検索結果でページを格付けする方法の大きな変更を説明している。検索クエリの12%がこの変更の影響を受けるようだ。両氏は、新しいアプローチにより、質の低いページを上位に格付けする頻度が少なくなり、品質の高いページを上位に押し上げるようになると語っていた。 このエントリは、グーグルが考える品質の高いページおよび低いページの要素に関するヒントを挙げ、その後、カッツ氏とシンガル氏はこの点を様々な機会で認めていた。2011年3月3日に行われたジョイントインタビュー「TED 2011: ファームを嫌うパンダ: グーグルの検索エンジニアのトップ2人を招いて質疑応答」もその一つであり、このインタビューでは、パンダと呼ばれるグーグルのエンジニアにちなんでこのアップデートがパンダと呼ばれたと言う件を含む、パンダに関する詳細が披露されていた。 私はインタビューを読み、そして、詳細な情報を提供する上で役に立つであろう当該のエンジニアが書いた記事か何かが見つかることを願い、このエンジニアに関する詳しい情報を手に入れる試みを行った。そして、同日の午後、大きなパンダの検索と決定木の捜索」を投稿した。 私はビスワナス・パンダと言う名前を偶然見つけたが、この人物こそが探していたパンダであったようだ。同氏は、グーグルのウェブインデックスのように非常に大きなデータセットで、効率的且つ効果的に機械学習アプローチを利用する方法を調査し、ページの質を特定するために、ページに関する特定の特徴に応じて、既知の一連のページと比較し、分類するリサーチに関わっていた。 上の段落でリンクを張ったTED 2011のインタビューで、カッツ氏は次のように述べている: 私達は、そうですね、例えばIRSやウィキペディアやニューヨークタイムズをこっち側、質の低いサイトがあっち側に分ける分類子を考案しました。ちゃんとした理由を理解してもらえるはずです… また、品質のシグナルとして考えられる特徴は、クレジットカードの情報をサイトに提供してもいいほど信頼しているかどうか等、ページに関する一連の質問を基に決められる点も明らかにされている。 アミット・シンガル氏は、5月6日、アップデートのきっかけとなった複数の質問を含むアップデートに関する別のエントリを投稿した。 [...]