衣袋宏美のデータハックス

いちばん正確なアクセス解析ツールは何か? [アクセス解析Q&A]

主にサーバログ型やJavaScript計測タグ型などがあるアクセス解析だが、どの方法で計測する数字が一番正しいのか?
衣袋宏美のデータハックス

質問:アクセス解析には、サーバーログ型やJavaScript計測タグ型など、さまざまな種類があるようですが、どの方法で計測する数字が一番正しいのでしょうか?

答えどの方法もそれぞれ「正しい」というのが回答です。Webのアクセスデータに、絶対的な「正しさ」というものはありません。それぞれの手法によって計測の対象となる取得データが異なりますし、また同じ方法で計測するツールでも、集計の仕方が少しずつ異なります。ですので、それぞれの計測方法の特徴を知ったうえで、自社サイトの目的達成度合いを計測するのに適切なデータは何なのかをよく考えてから、最もそれにふさわしい計測ツールや数字を利用しましょう。

解説アクセス解析では、業界統一ルールなどはありません。「ページビュー」や「参照元」といった必ず使用される基本指標であっても、すべてのツールに共通の決まった計測方法が定められているわけではありません。ツールごとに取得データや計測方法が異なりますので、同じWebサイトを別のツールで計測すると、ツールごとに数字が異なるのがふつうです。

それぞれのツールがどういうデータを収集し、どういう集計をしているのかを正確に把握しておくことは、データの意味を正しく理解するためには非常に重要なことです。

では、サーバーログ型とJavaScript計測タグ型のアクセス解析ツールでは、計測される数字に実際どれぐらい食い違いがあるのか。これを実際に調べてみたデータをまずご紹介しましょう。以下のグラフは、あるサイトを1か月間5つのツールで計測し、それを比較したデータです。

5種のツールで計測した日別ページビュー数
図1:5種のツールで計測した日別ページビュー数

これはJavaScript計測タグ型のツール3つ、サーバーログ型のツール2つで、同じサイトの日別ページビュー数を計測・集計してみたものです。サーバーログ型ではロボットからのアクセスを除くというフィルタを掛けて、なるべく集計対象の条件が同じになるように設定をしたうえで集計・比較してみました。

ご覧のとおり、同種のツール間での相違はそれほど多くはありません。また異種ツール間でも、数値の違いはあるものの、おおむね上下動の傾向は一致しています。これはページビュー数の指標を比較したものですが、セッション数(訪問数)でもユニークユーザー数でも傾向は同じでした。

さらに下図の参照元のデータを見ると、サーバーログ型においては、「参照元なし」の割合が、他と比べて多いことがわかりました。検索ロボットのアクセスは参照元がないのが普通なので、ロボットのアクセスの排除が十分にできていないのではないかと推察しています。

5種のツールで計測した参照元の分布
図2:5種のツールで計測した参照元の分布

ロボットからのアクセスを除くというフィルタは、特定のユーザーエージェント名のデータを除外する処理になりますが、マイナーな検索エンジンや個人が作ったプログラムなどは捕捉しようもなく、どうしても漏れがありますので、完全に排除することは無理です。

そのためサーバーログ型では、人がアクセスしたもの以外のデータも多少は混じってしまうという前提で数字を見ることが大事でしょう。

サーバーログ型は、次のような場合に、JavaScript計測タグ型より、多くのアクセスデータを取得する特徴があります。

  • 人間のアクセスではない検索エンジンのロボット、ウイルス/クラッキング、ダウンロードツールのアクセスをカウントする
  • ユーザー側のブラウザで完全に表示されていない場合をカウントする

一方、これと逆のケースで、JavaScript計測タグは、サーバーログ型より多くのアクセスデータを取得することもあります。

  • ブラウザキャッシュを閲覧した場合をカウントする
  • プロキシサーバーから配信された場合をカウントする

一般に調査データというものは、目的に応じて、最適な調査方法や分析手法が変わってきます。アクセス解析も同じです。ユーザーの行動を精度高く追跡してサイト改善に活用したいという目的であれば、クライアントサイドのJavaScript計測タグ型がよいでしょう。一方、検索エンジン最適化などのために、検索エンジンのクローラーがどのページを見に来ているのかを調べるためには、サーバーサイドのツールでデータを見るほかありません。目的に応じた適切な使い分けが必要です。

余談ですが、図2のツールAはGoogle Analyticsで、参照元の集計が特殊なため、同じJavaScript計測タグ型のツールBやツールCとも大きく違う数字になっています。

同種のツールの乗り換えであれば、ページビュー数などの基本指標の数字はある程度そのまま引き継いでしまってもよいと考えられます。一方、タイプの違うツールにどうしても乗り換えなければいけない事態になった場合は、1~2か月は並行して運用し、上記の例のようにトレンドは引き継いで使えそうであるという確信が得られれば、過去データを一律に補正して、トレンドをつなげるというのもありでしょう。

用語集
JavaScript / アクセス解析 / キャッシュ / クローラー / セッション / ダウンロード / ページビュー / ユニークユーザー / ユーザーエージェント / ロボット / 検索エンジン / 訪問
この記事が役に立ったらシェア!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

アクセシビリティ
広義には、障害者、高齢者を含むすべての人間が、同じレベルでサービスや機器、施設を ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]