アクセス解析 Step by Step

アクセス解析ツールの精度とコスト - 見えにくい予算項目を理解する（第3回）

どんな費用がかかるかを見てみると、見落としがちなコスト項目があることに注意が必要だ。

西川季宏 2009/11/5 10:00 アクセス解析／データ分析 | 解説／ノウハウ

前回ではアクセス解析ツールで採用されている3つの測定方式について、基本的な動作を示した。今回は各測定方式について、データ精度とコストという観点から、注意すべき違いの比較を行いたい。

アクセス解析ツールのデータの精度

アクセス解析の測定方式というものは、すでに確立されているWebの仕組みの中で、どうしたら人々の行動の測定ができるかと各ベンダーが工夫をして考案したものである。その点から言っても、期待されるような100%の精度でデータの計測ができるというのは有り得ない。まずはこの点を認識しておいていただきたい。さらに、それぞれの測定方式で、無視できないデータの精度上の違いがある。この点について、順に説明していこう。

(1) ロボット（クローラー）からのアクセス

サーバーログ取得型とパケットキャプチャリング型の場合、通常の人間のアクセスの仕方とは異なる検索エンジンのロボット（クローラー）のアクセスも、ログに蓄積されてしまう。もちろんこうしたアクセスは、ツール側で除去することができる。しかし、こうしたロボットの種類、アクセス数ともに増加している。特に除去するための条件として、ユーザーエージェントを指定する場合があるが、ロボットの中には我々が通常に使うユーザーエージェントと詐称して、アクセスを行うものがある。この場合は通常のアクセスなのか、ロボットのアクセスなのかが識別できない。よって、どれだけデータを除去しても、こういったデータが混入してしまうことは否めない。

Webビーコン型の場合は、ロボットのアクセスは受けにくい。なぜならWebビーコン型の場合、通常はhtmlファイルの最後部にJavaScriptで設定したタグにより計測を行うが、ロボットの場合はJavaScriptに反応しないものがほとんどだからである。この点で、Webビーコン型は、サーバーログ取得型・パケットキャプチャリング型に比べて、データの精度は高い。

(2) ブラウザの「戻る」・「進む」のアクセス

通常のブラウザでインターネットを利用しているとき、ブラウザの「戻る」「進む」ボタンのアクセスでは、クライアント側のキャッシュが利用されることが多い。そうすると、クライアントとWebサーバーの間に通信が発生せず、ログが記録されたり、パケットが送信されたりすることがない。そのため、こうしたアクセスを測定することができない。

一方でWebビーコン型の場合、そのページ表示がキャッシュかどうかに関わらず、ページを表示するたびにJavaScriptは作動する。そのため、表示されたページすべてのデータを計測するという点で、Webビーコン型の方が、サーバーログ取得型・パケットキャプチャリング型の方が精度は高いといえる。

(3) PDFへのアクセス

PDF自体にタグを挿入することはできない。そのため、Webビーコン型の場合だと、PDFファイルへのアクセスが計測できるのは、タグが実装されたhtmlファイルからのリンクにより、PDFファイルがアクセスされた場合に限られる。それ以外の手段でPDFがアクセスされても、計測はできない。

これが最も大きく影響するのが、検索エンジンからPDFへの直接アクセスによる、流入キーワードの計測である。サーバーログ型やパケットキャプチャリング型ならこの計測が可能だが、Webビーコン型は計測ができない。

以上からデータの精度についてまとめると、基本的には(1)(2)から、Webビーコン型の方がデータの精度が高いといえる。特に経験的に(1)の影響は甚大で、解析ツール導入後ロボット（クローラー）の削除設定をメンテナンスしていないため、実情と異なるデータを報告しているということも多くあるようだ。一方で、(3)の点については注意が必要で、PDFコンテンツを多くもつサイトの場合、必ずしもWebビーコン型を導入するのが得策とはいえない（場合によっては異なる測定方式をもつツールを併用するということも考えられる）。

アクセス解析ツールの3つの測定方式とデータの精度

データ精度に関する懸念点	サーバーログ取得型	Webビーコン型	パケットキャプチャリング型
ロボット（クローラー）からのアクセスの影響	×受けやすい定期的にメンテナンスする必要がある	○受けにくい	×受けやすい定期的にメンテナンスする必要がある
ブラウザの「戻る」「進む」のアクセス	×取得しきれない	○取得できる	×取得しきれない
PDFからのアクセス	○すべて取得する	×取得しきれない htmlからのリンクのみ取得し、外部からPDFへの直接アクセスは取得できない	○すべて取得する