Googleが文書レベルの分類子でスパムを特定する仕組み | SEO Japan

SEO Japan - 2011年4月15日(金) 15:02
このページは、外部サイト SEO Japan の情報をRSSフィード経由で取得して表示しているため、記事の一部分しか表示されていなかったり、画像などが正しく表示されなかったり、オリジナル記事が意図したデザインと異なっていたりする場合があります。
完全な状態のオリジナル記事は 「Googleが文書レベルの分類子でスパムを特定する仕組み」 からご覧ください。
昨年末から今年前半にかけてのGoogleのパンダアップデート含めて検索結果のアルゴリズム調整には怒涛の勢いが感じられましたが、有料リンクだコンテンツファームだというキーワードばかりが先行した感もあります。今回はGoogleの特許を元にGoogleが文章からスパムを特定する仕組みを研究。 — SEO Japan 他のサイトからコンテンツをすくい取るウェブスパム、そして、コンテンツファームの質の低いコンテンツのせいでグーグルがあまりに役に立たなくなっている点を指摘するニュースのオピニオン記事やブログのエントリが、ここ数ヶ月の間に急増している。グーグルのウェブスパム部門を引っ張るマット・カッツ氏は、この手のページが検索結果で上位にランクインしないようにするためのグーグルの新しい取り組みを発表することで、このような批判に応じている。2011年1月21日、グーグルの公式ブログで、カッツ氏は次のように述べていた: ここ数ヶ月の間、グーグルは規模および鮮度を高めてきた。当然ながら、その間、多くの良質なコンテンツだけではなく、スパムもインデックスしてきた。この難題に対処するため、先日、グーグルは、スパムのオンページのコンテンツが上位にライクインしづらくなるように、文書レベルの分類子を改めた。 新しい分類子は、個別のウェブページで、ジャンクに他ならない自動化された自己宣伝的なブログのコメントによく見られるようなフレーズ、つまり繰り返されるスパム感丸出しの用語を特定する能力に長けている。 マット・カッツ – グーグル検索および検索エンジンスパム このエントリの「文書レベルの分類子の改善」に関するセクションに辿りついた時、私は「カッツ氏が意味する文書レベルの分類子とは何か、そして、検索結果に表示されるスパムの量をどのように減らすのか」考えてみた。 文書レベルの分類子とは何か、そして、その仕組みについて知識を得るため、私はグーグルの特許を掘り起こし、以前取り上げたことのない文書レベルの分類子に具体的に言及する特許の例を見つけることが出来るか試してみた。 すると、文書レベルの分類子を使って、ウェブページで使われている言語を理解する方法に関する特許が見つかった: 確率的な分析を介して言語の属性を特定考案: Alexander Franz、Brian Milch、Eric Jackson、Jenny Zhou、Benjamin Diament 付与先: Google 米国特許申請番号: 7,386,438 付与日: 2008年6月10日 申請日: 2003年8月4日 概要 言語の属性を確率的な分析を通して特定するシステムとメソッドを説明する。一連の言語のクラスおよび複数のトレーニングの文書が定義され、それぞれの言語のクラスが言語および文字セットのコードを特定する。それぞれのトレーニング文書に存在する1つ、もしくは複数の文書の特性の発生に対する評価が行われる。 それぞれの言語クラスに対して、言語クラスの存在が条件とされている文書の特性のセットの確率が算出される。各トレーニング文書内のバイトの存在が評価される。それぞれの言語クラスに対して、言語クラスの発生に必要なバイトの発生の確率が算出される。 文書レベルの分類子 文書レベルの分類子は、ページ上で見つかる複数の属性を確認して、当該のページに対する分類に関する確率を計算するプログラムである。言語の属性の場合、このような属性には、次のような文字セットや言語のメタタグの確認が含まれている可能性がある: <head><meta charset=”iso-latin-1″> <META LANG-=”fr”></HEAD> しかし、この特許は、言語および文字セットのメタタグは滅多にページには現れず、現れた場合も誤っていることが多いと指摘している。 さらに、検索エンジンは、ページのドメインが特定のトップレベルのカントリーコードを利用しているか否かなど、その他の手掛かりを探して、ページの言語を特定する可能性もあるようだ。例えば、「.es」ドメインのサイトは、スペインのウェブサイトであり、スペイン語が使われていると推測される。 また、この特許は、このような特徴を確認するアプローチを採用しているが、ページ上のテキストをnグラムに割ったり、「n」ワード数の単語のグループ分けを行う、テキスト分析のアプローチも利用しているようだ。この特許では、3ワードが提案されている。 そのため、このシステムが、どの言語が使われているかを識別するためにこのページをチェックする場合、まず、このページの1行目を確認し、次にnグラム、つまり3ワードの長さに分けていくだろう。試してみよう。1行目を3ワードに分けていくと次のようになる: There have been have been a been a number a number of number of [...]
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

グロースハック
グロースハックは英語でGrowth Hackと書くが、Growthは成長、Hac ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]