アクセス解析ツールの精度とコスト - 見えにくい予算項目を理解する(第3回)
前回ではアクセス解析ツールで採用されている3つの測定方式について、基本的な動作を示した。今回は各測定方式について、データ精度とコストという観点から、注意すべき違いの比較を行いたい。
アクセス解析ツールのデータの精度
アクセス解析の測定方式というものは、すでに確立されているWebの仕組みの中で、どうしたら人々の行動の測定ができるかと各ベンダーが工夫をして考案したものである。その点から言っても、期待されるような100%の精度でデータの計測ができるというのは有り得ない。まずはこの点を認識しておいていただきたい。さらに、それぞれの測定方式で、無視できないデータの精度上の違いがある。この点について、順に説明していこう。
(1) ロボット(クローラー)からのアクセス
サーバーログ取得型とパケットキャプチャリング型の場合、通常の人間のアクセスの仕方とは異なる検索エンジンのロボット(クローラー)のアクセスも、ログに蓄積されてしまう。もちろんこうしたアクセスは、ツール側で除去することができる。しかし、こうしたロボットの種類、アクセス数ともに増加している。特に除去するための条件として、ユーザーエージェントを指定する場合があるが、ロボットの中には我々が通常に使うユーザーエージェントと詐称して、アクセスを行うものがある。この場合は通常のアクセスなのか、ロボットのアクセスなのかが識別できない。よって、どれだけデータを除去しても、こういったデータが混入してしまうことは否めない。
Webビーコン型の場合は、ロボットのアクセスは受けにくい。なぜならWebビーコン型の場合、通常はhtmlファイルの最後部にJavaScriptで設定したタグにより計測を行うが、ロボットの場合はJavaScriptに反応しないものがほとんどだからである。この点で、Webビーコン型は、サーバーログ取得型・パケットキャプチャリング型に比べて、データの精度は高い。
(2) ブラウザの「戻る」・「進む」のアクセス
通常のブラウザでインターネットを利用しているとき、ブラウザの「戻る」「進む」ボタンのアクセスでは、クライアント側のキャッシュが利用されることが多い。そうすると、クライアントとWebサーバーの間に通信が発生せず、ログが記録されたり、パケットが送信されたりすることがない。そのため、こうしたアクセスを測定することができない。
一方でWebビーコン型の場合、そのページ表示がキャッシュかどうかに関わらず、ページを表示するたびにJavaScriptは作動する。そのため、表示されたページすべてのデータを計測するという点で、Webビーコン型の方が、サーバーログ取得型・パケットキャプチャリング型の方が精度は高いといえる。
(3) PDFへのアクセス
PDF自体にタグを挿入することはできない。そのため、Webビーコン型の場合だと、PDFファイルへのアクセスが計測できるのは、タグが実装されたhtmlファイルからのリンクにより、PDFファイルがアクセスされた場合に限られる。それ以外の手段でPDFがアクセスされても、計測はできない。
これが最も大きく影響するのが、検索エンジンからPDFへの直接アクセスによる、流入キーワードの計測である。サーバーログ型やパケットキャプチャリング型ならこの計測が可能だが、Webビーコン型は計測ができない。
以上からデータの精度についてまとめると、基本的には(1)(2)から、Webビーコン型の方がデータの精度が高いといえる。特に経験的に(1)の影響は甚大で、解析ツール導入後ロボット(クローラー)の削除設定をメンテナンスしていないため、実情と異なるデータを報告しているということも多くあるようだ。一方で、(3)の点については注意が必要で、PDFコンテンツを多くもつサイトの場合、必ずしもWebビーコン型を導入するのが得策とはいえない(場合によっては異なる測定方式をもつツールを併用するということも考えられる)。
データ精度に関する懸念点 | サーバーログ取得型 | Webビーコン型 | パケットキャプチャリング型 |
---|---|---|---|
ロボット(クローラー)からのアクセスの影響 | ×受けやすい 定期的にメンテナンスする必要がある | ○受けにくい | ×受けやすい 定期的にメンテナンスする必要がある |
ブラウザの「戻る」「進む」のアクセス | ×取得しきれない | ○取得できる | ×取得しきれない |
PDFからのアクセス | ○すべて取得する | ×取得しきれない htmlからのリンクのみ取得し、外部からPDFへの直接アクセスは取得できない | ○すべて取得する |
ソーシャルもやってます!