Googleが重複コンテンツを見破るアルゴリズムとは? | SEO Japan

SEO Japan - 2010年12月21日(火) 12:03
このページは、外部サイト SEO Japan の情報をRSSフィード経由で取得して表示しているため、記事の一部分しか表示されていなかったり、画像などが正しく表示されなかったり、オリジナル記事が意図したデザインと異なっていたりする場合があります。
完全な状態のオリジナル記事は 「Googleが重複コンテンツを見破るアルゴリズムとは?」 からご覧ください。
1つのコンテンツが様々な形でネット上に流通する現在、検索エンジンが重複コンテンツをどう処理しているかという問題はSEOのプロでなくとも気になる話題です。今回はGoogleが取得した特許を元にGoogleの重複コンテンツの判別アルゴリズムをSEO by the Seaが探ります! — SEO Japan 検索エンジンの特許のなかには、検索エンジンがコアの機能を実行する仕組みを詳細に取り上げているものもある。「コアの機能」とは、ページのクロール、ページのインデックス、そして、検索者への結果の表示を意味する。 例えば、昨年の12月、私は「アンカーテキストと異なるクローリングの早さに関するGoogleの特許」と言うタイトルのエントリを投稿した。これは、2003年に申請された特許をクローズアップしており、検索エンジンがウェブページをクロールし、見つけたページのウェブアドレスやURLを集める仕組みを説明した。 このエントリが取り上げた特許は、「ウェブクローラーシステムでのアンカータグのインデックス」であり、グーグルがどのぐらいの頻度で特定のページを訪問または再訪問しているのかをひも解いていた。毎日複数のページをクロールすることもあれば、リアルタイムまたはリアルタイムに近いペースでクロールするページもあり、- 場合によっては数分おきにクロールされるページもある。ウェブページのリアルタイムのインデックスに関して、ここ数ヶ月で多くの議論が重ねられてきたので、今回は、2003年に申請されたこの特許に注目してみようと思う。 この過去の特許は、検索エンジンのクローラーが、一時的なリダイレクト(302)と永続的なリダイレクト(301)を、その違いに注目し、そして、ある時は一時的なリダイレクトを追跡し(検索結果に表示するページを判断するため)、そして、永続的なリダイレクトに関連するURLを集めて、後ほど – 一週間後やそれ以降 – 対応するクエリに放り込むことで、異なる扱いをする仕組みにも触れている。 この特許は、ページのクロール中に見つけたリンクの前後のテキスト、そして、アンカーテキストが、これらのリンクに対する注釈として用いられる仕組みを取り上げ、そして、検索エンジンがテキストを近くのリンクと関連付けるかどうかを特定する際に注目する特徴の幾つかを紹介している。 また、「ウェブページをクロールしている際に見つけた重複するコンテンツを特定する方法、そして、コンテンツに対する最も適切なアドレス、またはカノニカルなURLを特定する仕組み」と言う非常に興味深いトピックも取り上げている。これは検索エンジンにとっては非常に重要である – 同じコンテンツが複数のページで見つかった場合、検索エンジンは同じコンテンツに対して複数のソースをインデックし、表示することに時間もリソースも費やしたくないからだ。 今週、関連するグーグルの特許が認められた。この特許は検索エンジンが重複するコンテンツを扱う仕組みについてさらに詳しく説明している。この特許を申請した考案者達は、同じ日に申請されたアンカーテキストに関する特許にも関わっていた。グーグルがウェブページのクロール中に重複するコンテンツを探す理由について、この新たに申請された特許は、前半部分で次のように説明している: また、別のウェブサーバーに保存されていても、同じコンテンツを共有する文書の重複したコピーが増え続ける傾向があります。 一方では、これらの文書の重複したコピーは歓迎される。なぜなら、一つのウェブサーバーが閉鎖されることで、ウェブサーバー上の文書を読み込むことが出来なくなるリスクを軽減するからだ。しかし、もう一方では、適切に対応されない場合、フロントエンドおよびバックエンドでの検索エンジンの仕事量を大幅に増やし、効率を下げるデメリットがある。 例えば、検索エンジンのバックエンドでは、同じ文書の重複したコピーは、コンテンツにおいては関連性のない異なる文書として扱われ、そのため検索エンジンは、重複した文書を処理し、管理するため、ディスクのスペース、メモリ、ネットワークの帯域幅を浪費する。 フロントエンドでは、重複する文書を保持すると、検索エンジンは大きなインデックスを検索し、クエリを処理するために処理能力を余分に使わなければならなくなる。また、検索結果に掲載される必要のある様々なコンテンツが重複する文書によって締めだされてしまうと、ユーザーエクスペリエンスにも悪影響を及ぼす可能性がある。 このような理由で、検索エンジンがクロールする際に重複する文書を処理するために余分な労力を注ぐ前に、これらの文書を検知するシステムおよびメソッドを開発しておきたい。 また、これらの重複した文書を効率よく管理し、検索エンジンが重複する文書を含む結果のクエリに対応する際に、効率的に最も適切で信頼できるコンテンツを供与することが出来るようにしたい。 特許: ウェブクローラーシステムの重複する文書の検知 考案: Daniel Dulitz、Alexandre A. Verstak、Sanjay Ghemawat、Jeffrey A. Dean 付与先: Google 米国特許申請番号: 7,627,613 付与日: 2009年12月1日 申請日: 2003年7月3日 概要 ウェブクローラーシステムで重複した文書が検知される。新たにクロールされた一連の文書を受け取ると、新たにクロールされた文書と同じコンテンツがある場合、検知される。新たにクロールされた文書と選ばれた一連の文書を特定する情報は、新しい一連の文書を特定する情報と組み合わされる。 重複した文書は、それぞれの文書に対するクエリの独立したメトリクスに基づいて、含まれるか、除外される。新しい一連の文書を代表する単一の文書は、既定の一連の条件に基づいて特定される。 この特許は、グーグルがクロールおよびアンカーテキストに対処する仕組みを取り上げた、先に認められた特許と重なる部分が多い。例えば、ウェブページの一部のURLは従来のように数日ごとに定期的にクロールされ、別のURLは毎日クロールされ、また別のURLは1日に数回クロールされる点を説明している。 重複する文書の検知に関する特許は、アンカーテキストには触れる程度だが、検索エンジンのコンテンツフィルターが重複するコンテンツのサーバー(特許の申請書ではDupserverと呼ばれている)に対応する仕組みの詳細を提供している。検索エンジンは、新たにクロールされたページを受け取ると、まずDupserverを調べて別の文書の重複するコピーかどうかを確かめ、重複する場合は、どちらがオリジナルのバージョンなのかを特定する。 この特許は、グーグルが見つける重複するコンテンツの種類をすべて網羅しているわけではないだろう – 重複するコンテンツを含む多くのページは、URLによって異なるヘッダーやフッター、サイドバー等の常用のコンテンツで埋められた全く異なるテンプレートが含まれる場合など、種類は多種にわたる。または、一部のコンテンツは重複し、一部のコンテンツはオリジナルのページ、または、複数のソースでコンテンツが重複するページも考えられる。この特許は、網羅する重複するコンテンツの種類を定義しており、リダイレクト、そして、このようなページに関連する重複するコンテンツを処理する方法について説明している: 重複する文書は、実質的に同等の内容を持つ文書であり、完全に内容が一致し、文書のアドレスが異なる形態を取る場合がある。 従って、重複する文書にウェブクローラーが遭遇するシナリオが少なくとも3つは存在することになる: [...]
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

アーンドメディア
「トリプルメディア」の 1 つ。ユーザーの「信用・評判・共感」を得るためのメディ ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]