4大検索エンジン+Cuilの性能を比較してみた(後編)
この記事は前後編の2回に分けてお届けしている。前編では、5つの検索エンジンに関してテスト結果を示した。後編では、各調査項目について詳しくお伝えする。
さて、長々とかかるデータ収集プロセスへ入ろう……
関連性(レリバンシー)
関連性を決定づけるのは、検索品質の根幹だ。検索者の目的や期待を実現するという点において、与えられたテーマから外れず有用であればあるほど、関連性は高くなる。
品質を測るというのは常に主観的なものだが、僕の経験からすると、エンジンの検索結果の相対的価値を理解するためには、わずかな数のクエリを実行するだけで事足りる。
関連性に関するデータの収集にあたって、僕は、上位の検索結果がどの程度僕の疑問に答えてくれているかだけを判断した。優れた検索結果をずっと低い順位で表示するものよりも、上位の数件で最高の回答を提供してくれた方を高く評価したのだ。
各エンジンの性能を判断するのに使用したクエリは以下のとおりだ。
- きわめて話題性の高いクエリ:
- gas prices(ガソリン価格)
- iphone
- dark knight(ダークナイト)
- barack obama(バラク・オバマ)
- 需要の高いクエリ
- laptops(ノートパソコン)
- photography(写真)
- rental cars(レンタカー)
- scholarship(奨学金)
- house plans(間取り)
- 中間的なクエリ
- fire prevention(防火)
- calendar software(スケジュール管理ソフト)
- snow tires(スノータイヤ)
- economic stimulus payment(景気刺激還付金)
- nintendo wii games(任天堂 Wii ゲーム)
- ロングテールのクエリ
- pacific islands polytheistic cultures(太平洋の島々 多神論的文化)
- chemical compounds formed with baking soda(重曹から生成される化合物)
- genuine buddy 50 scooter reviews(Genuine Buddy 50 スクーター レビュー)※
- google toolbar pagerank formula(グーグルツールバー ページランク 公式)
- getting a novel published(小説を出版する)
- 技術的なクエリ
- metalworking inurl:blog(金属細工)
- cricket -site:.co.uk -site:.com.au(クリケット)
- dark crystal site:imdb.com(ダーククリスタル)
- top * ways(上位*の方法)
- definition sycophant(おべっか使い 定義)
検索範囲(カバレッジ)
検索範囲(カバレッジ)は、検索エンジンのインデックス規模とクロール速度を示す。インデックスの規模が大きければ大きいほど、そしてクロール速度が速ければ速いほど、検索エンジンは各クエリに対し関連性の高いページをより多く表示できる。
この項目を評価するため、大規模サイトおよび小規模サイトで、各サイトについてどれだけのページがインデックス化されているかに焦点をあてるとともに、需要曲線のテール部分におけるクエリにも注目した。
評価のために使用したクエリは以下のとおりだ。
- 大規模サイト
- site:government.hp.com
- site:research.ibm.com/leem
- welsh rugby site:bbc.co.uk(ウェールズ ラグビー)
- search engine optimization site:w3.org(検索エンジン最適化)
- tango tapas seattle site:nytimes.com(タンゴ タパス シアトル)
- 中規模サイト
- site:seomoz.org/blog
- site:news.ycombinator.com
- site:education.com/magazine
- bumbershoot site:thestranger.com(バンバーシュートフェスティバル)
- snowboards site:evogear.com(スノーボード)
- 小規模サイト
- site:downtownartwalk.com
- site:amphl.org/
- site:totebo.com
- dockboard site:loadingdocksupply.com(ドックボード)
- site:microsites.audi.com/audia5/
情報の新しさ(フレッシュネス)
検索範囲の調査によってクロールの速度と深さを知ることができるのだが、一方、検索結果における情報の新しさは、関連性が高く有用なニュース記事や最新トピックを検索上位に配置するという、各エンジンによる熱心な取り組みを示している。
僕は、需要の高いクエリとロングテールのクエリの両方をいくつも使用し(比較的小規模なドメイン名の新しいページも含め)、最近の出来事に関して各検索エンジンのインデックスが提供してくれる情報の新しさの質を調べた。
評価のために使用したクエリは以下のとおりだ。
- きわめて話題性の高いクエリ
- los angeles earthquake(ロサンジェルス 地震)
- obama germany(オバマ ドイツ)
- gas prices(ガソリン価格)
- ted stevens(テッド・スティーブンス)※
- beijing olympics(北京オリンピック)
- 需要の高いクエリ
- new york city weather(ニューヨーク市 天気)
- dow jones average(ダウ平均株価)
- seattle mariners schedule(シアトル・マリナーズ スケジュール)
- cuil launch(Cuil 立ち上げ)
- nasa news(NASA ニュース)
- 中間的なクエリ
- warp speed engine(ワープ スピード エンジン)
- unesco world heritage(ユネスコ 世界遺産)
- movie times 98115(映画上映時刻 98115)
- comic con 2008(コミコン2008)※
- most charitable us cities(最も寛大な米国の都市)
- ロングテールのクエリ
- melinda van wingen(メリンダ・バン・ウィンゲン)
- over the hedge comic 7/28(『Over the Hedge』 コミック 7月28日)
- seomoz give it up blog(SEOmoz 「Give It Up」 ブログ)
- scrabulous facebook
- internet startups that failed miserably(惨めな失敗に終わったインターネット新興企業)
多様性
性能の低い検索エンジンは、曖昧な検索クエリに対して質の高い結果をうまく出せないことも多い。これに対して、最新技術を駆使しているエンジンの場合、検索結果に多様性を持たせたり、クエリの目的に合致する候補を積極的にアドバイスしたりすることで、はるかに高い価値を提供できる。
評価のために使用したクエリは以下のとおりだ(検索意図の曖昧なクエリを思いつくのは実に難しいので、各段階ごとに3つのクエリだけにとどめた)。
- 非常に曖昧
- mouse(マウス)
- ruby(ルビー)
- drivers(ドライバー)
- やや曖昧
- comics(コミック)
- shipping(出荷)
- earth(地球)
- 比較的明確
- ibm(IBM)
- harry potter(ハリーポッター)
- graphic design(グラフィック・デザイン)
- 明確そのもの
- seattle children's hospital map(Seattle Children's Hospital 地図)
- color wheel diagram(色相環図)
- great gatsby amazon(『グレート・ギャツビー』 Amazon)
ユーザー体験
デザイン、インターフェイス、機能、速度、垂直検索の統合などがすべてユーザー体験に関わってくる。独特な表示の仕方をする検索エンジンの場合、提供される検索結果のクオリティと、追加的なデータが本当の価値をもたらしているかどうかによって、この項目で高く評価されることもあれば、低く評価されることもある。
各検索エンジンの評価は、1つ1つのクエリを通してではなく、(これまでに実施した各テストから得たデータと、僕自身のこれまでの知識と経験を利用して)ユーザー体験に関わる各要素がどうなっているかに基づいて行った。
ユーザー体験は以下の点に基づいて評価した。
- クエリ速度――検索ボタンをクリックしてから、検索結果ページをすべて読み込むまでにかかる平均時間
- 検索結果ページのレイアウト――検索結果、広告、クエリオプション、検索バー、ナビゲーションなどの構成
- 垂直検索の統合――価値のある垂直検索結果、あるいは役に立つ部分で「即答」形式の検索結果が含まれているか
- クエリに関する支援――あいまいさ回避、拡張検索、類似/関連のあるクエリなどのユーザー支援機能があるか
- 高度な機能――特定サイト内の検索、URLあるいはタイトルにキーワードを含むサイトの検索、Webサイトの種類やドメイン名上の特定のフォルダによる絞込み検索などを実行できるか
今回の調査を実施するため僕が作成したGoogleドキュメントのスプレッドシートのスクリーンショットを、興味がある人のために掲載しておく。なお、この表はだれでも見られるように公開している。
この種の調査には多数の作業が必要だ。このテストは科学的あるいは統計的に有効なものではなく、(評価を行うのが僕ひとりである以上)明らかに見方に偏りがあるものの、導き出された結果は実際のところかなり有益だし正確だと思う。それでも、統計的に有意な標本数でこんな公開調査を実施したら、とてもおもしろいだろう。
ソーシャルもやってます!