Googleがコンテンツとクリックの情報を基にスパムを排除する仕組み | SEO Japan

SEO Japan - 2010年10月1日(金) 17:01
このページは、外部サイト SEO Japan の情報をRSSフィード経由で取得して表示しているため、記事の一部分しか表示されていなかったり、画像などが正しく表示されなかったり、オリジナル記事が意図したデザインと異なっていたりする場合があります。
完全な状態のオリジナル記事は 「Googleがコンテンツとクリックの情報を基にスパムを排除する仕組み」 からご覧ください。
久しぶりの更新となってしまいました。久々の投稿で何ですが、ハード目?なSEOの話題を。今回はGoogleがコンテンツの内容や検索結果ページのクリック後のユーザー行動を基にスパム対策を行う仕組みを特許をベースに解説します。 グーグルに一連のキーワードを入力すると、検索エンジンは入力されたキーワードを含むすべてのページを探す試みを行い、関連性スコアと重要度のスコアの組み合わせに基づいて並べられた一連の結果を返す。しかし、このような検索に対して返される可能性のあるページの多くが、クエリの用語に関連するトピックに対してあまりマッチしていない可能性がある。あるいは、スパムのページの可能性もある。 2006年に申請され、本日付与されたグーグルの特許によると、コンピュータゲーム、映画、そして、音楽等のトピックに対するウェブページの約90%がスパムのようだ。この類のページは「検索エンジンのトラフィックを誤った方向に導く」ためだけに存在する。この特許には、このようなページが通常「関心のあるトピック」とは関係なく、ビジターにポルノ、ソフトウェア、あるいは金融商品等の製品を買わせようとしている点が描かれている。 この特許は、ウェブスパムを取り除くため、検索エンジンがユーザー行動のデータに基づいて文書を識別するために用いる自動プロセスを紹介している。 このプロセスの裏側には複数のステップがあるものの、特定のトピックに関連する「シード」クエリの数を特定することから全てが始まる。クエリは検索エンジンで検索され、これらのクエリの結果として表示されるページは、共通の特徴に対する分析が行われる。 例えば、これらの文書のうちの特定の上位の文書内に表示される単語は、特定のn-gram、または単語のコンビネーションがどれぐらいの頻繁で文書内に表示されるのかを確認するために、分析される可能性がある。「n-gram」は、2つの単語の組み合わせ(bi-grams)、または、3つの単語の組み合わせ(tri-grams)、もしくはさらに大きな組み合わせ等、異なる長さの単語の連続した組み合わせの可能性もある。このような単語の組み合わせは、「The quick brown fox jumps over the lazy dog」等のフレーズから取り出され、以下のように表示される。これはtri-gramsの例である: The quick brown quick brown fox brown fox jumps fox jumps over jumps over the over the lazy the lazy dog ページ上の単語のその他の特徴として、特定の単語がページに表示される頻度、そして、同じ単語もしくは同じ複数の単語を含むその他のページに表示される頻度を比較するものもある。 これらの特徴および同様の特徴は、ウェブページに表示される単語を基にウェブページを分類するために利用される可能性がある。そして、これらの文書に注釈を付けて、分類に関する情報がウェブページと関連させるために用いられることも考えられる。 クエリに対するトピックの情報は、ページが以下の項目に当てはまるかどうかを特定するため、検索結果に表示されるページに対する分類の情報と比較される: 特定のトピックと関連するか スパムかどうか 特定のトピックに関連していないか、あるいはトピックから外れているか 一部のページはクエリ内で用いられているキーワードを含むかもしれないが、だからと言って、必ずしもこれらのページがクエリ自体と同じトピックと言うことにはならない。そのため、この特許は、ユーザーの入力した情報もまた判断材料に用いられると説明している: クリックスルー率 – 特定のページがクエリに対して検索結果で選択されている頻度 対 これらのページが当該のクエリに対して表示される頻度。 クリックの時間 – ユーザーが検索エンジンで見つけた後、当該のページを訪問する際にそのページにとどまる時間。 その他の不特定の関連するナビゲーションの行動もまた、ページがユーザー行動に基づき文書に与えられた分類と関連しているかどうかを判断するために用いられる可能性がある。 トピックをベースにした分類、そして、クリックの情報の組み合わせは、ページがトピックと一致しているか、もしくはトピックから外れているか、あるいはスパムかどうかを特定するために用いられる。トピックに一致する文書は検索結果でプッシュされ、一方、トピックから外れている文書やスパムの文書はランキングが下げられるか、あるいは検索結果から削除される。 特許の情報: ユーザーの入力した情報を基に文書を分類するメソッドおよび装置 考案: [...]
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

O2O2O
O2O(Online to Offline)施策の進化形。テレビ放送/テレビCM ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]