アクセス解析 Step by Step

PV・訪問・訪問者の数値はなぜツールによって異なるのか（第4回）

アクセス解析の基本的な指標PV・訪問・訪問者は、ツールによって基準が異なるので注意が必要。

2009年12月15日 10:00

PV・訪問・訪問者の定義と注意点（1）

前回まで2回に分けて、アクセス解析ツールの仕組みに関して述べてきた。これまでの内容を端的にいえば、アクセス解析ツールは、それぞれの仕組みによって、データの取得の仕方が大きく違うということである。その点を踏まえた上で、今回以降、どんなデータが取得できるのか、という点を示してゆきたい。手始めは、PV・訪問・訪問者というアクセス解析の中でも最も基本的な指標について述べる。

PV・訪問・訪問者の定義

まずは定義から確認していく。アクセス解析の用語の定義には、Web Analytics Asociaiton（WAA）というアクセス解析に関する米国の業界団体によってなされたものがあるが、以下は、その定義をもとに、若干私なりの解釈を加えたものである。

PV（ページビュー）
「ページ」の閲覧された回数。
訪問（セッション）
ある個人が、測定対象のサイトに対して1PV以上アクセスした一連の行動単位。
訪問者（ユニークビジター、ユニークユーザー）
ある期間内に、測定対象のサイトに対して、1回以上の訪問をした人数の推定値。

明確な定義に見えるかもしれないが、実際には曖昧な部分が若干ある。そのため、アクセス解析ツールによって各指標の数値をどういった基準で表示するかが微妙に異なり、結果として、ツールによって同じ名前の指標でも表示される数値が異なる場合があるという状況になっている。

この曖昧な部分についての理解を確固にして、実際にどのようなデータが測定されているのかを正しく認識していただきたい。

PVの測定はツールの種別によって違いが生じる

PVは「ページ」の閲覧回数のことであるが、その測定対象である「ページ」はアクセス解析ツールごとに定義が若干異なるので注意が必要である。

サーバーログ取得型とパケットキャプチャリング型 ―― 画像ファイル以外をすべてページとしてカウント

サーバーログ取得型とパケットキャプチャリング型のアクセス解析ツールの場合、.gif、.jpgなど解析対象外とした拡張子のファイル以外のすべてのアクセスをページ測定の対象とする（逆に、解析対象とする拡張子のみのアクセスを対象とするツールもある）。

一般的に画像ファイルへのアクセスはPVとしてカウントしない設定になっているが、たとえば.fla（Flashのファイル）や.rdf（RSSフィードなど）といった比較的最近使われるようになった拡張子は考慮されていないツールがほとんどだろう。画像などと同じくページとしてカウントしてはいけない場合は、除外設定を加える必要がある。

またPDFなどhtml以外のWebコンテンツのアクセスの測定については、前回述べたとおりである。復習すると、サーバーログ取得型とパケットキャプチャリング型のアクセス解析ツールでは、PDFへのアクセスは、サイト内からであっても、検索エンジンからの直接アクセスであってもカウントできる。ファイルのダウンロード回数なども同様である。

また、ページの識別はURLをもとに行っているものがほとんどである。

Webビーコン型 ―― タグの挿入されたページしかカウントしない

Webビーコン型のアクセス解析ツールは、測定用タグの挿入されたページへのアクセスをカウントする。逆にいうと、タグが挿入されていないページや、JavaScriptコードが間違った形で挿入されているページへのアクセスはカウントされない。また、PDFやダウンロードファイルへのアクセスの測定は、ページのリンクから専用のタグを設置することで初めて可能になる（この場合でも検索エンジンからの直接アクセスには対応できない）。

ページの識別は、URLで行うものと、タグでページごとに一意のIDを指定するものの2種類がある。メリット・デメリットは表裏一体だが、以下の表に一覧として記載してみた。なお、Google Analyticsなどは共通タグ方式の代表格と思われているが、個別タグ方式にもできる。

	URLによるページ識別	一意のIDによるページ識別
実装するタグ	タグはすべて共通（共通タグ方式） ⇒管理が楽	タグに識別用のIDを割り振る（個別タグ方式） ⇒番号付けのルールが必要。また実装ミスのないように管理が必要
データの計測	まったく同じ内容をもつ複数URLのアクセスがまとまらない検索エンジンのキャッシュのアクセスが、すべて別URLとして計測される	同じIDをもつ複数のページへのアクセスはすべて同じページへのアクセスとしてまとめられる

訪問や訪問者において、同一かどうかの識別はどのように行っているのか？

どんなアクセス解析ツールでも、「このアクセスAと、別のアクセスBが同一の人からのものである」ということを、何らかの要素によって判断している。この識別方式も、アクセス解析ツールの測定方式によって以下の違いがある。

サーバーログ取得型パケットキャプチャリング型	Webビーコン型
以下2つのどちらか IPアドレスとユーザーエージェント（UA）名の組み合わせ Cookie	Cookieがベースで、Cookieがないアクセスは「IPアドレスとUA」の組み合わせで補完

まず用語について確認するが、UA（ユーザーエージェント）というのは、ログファイル上に記録される、クライアントのブラウザとOSの情報のことである。「IPアドレスとUA」で識別を行うということは、同じIPアドレスであっても、別のブラウザからのアクセスであれば別訪問とみなすということである。

この2つを比較すると、「Cookieによる識別」と「IPアドレスとUAの組み合わせによる識別」では、IPアドレスとUAの組み合わせの方が精度は落ちると考えられる。理由は大きく以下2点からである。いずれも、IPアドレスでは個人を識別できない場合があることが原因だ。

企業からのアクセスの場合、社内ネットワークから外部インターネット環境に接続する際に、その企業ネットワークの「ゲートウェイ」を通ることで、その社内ネットワークのだれがアクセスしても外部から見ると同じ1つのIPアドレスになる場合が多いため、その社内で複数のPCからの訪問であっても、同一訪問だと識別される可能性がある。
家庭（ISP）からのアクセスの場合、動的なIPアドレスを割り当てられていることから、IPアドレスが接続ごとに変化する可能性があり、同一人物からの訪問を、別の人物からの訪問だとみなす可能性がある。

ただ経験上、この識別方式であっても、訪問までは分析に足ると考えている。ただ、訪問者となると、数値の提示は参考程度にとどめた方がよいだろう。また、Cookieの場合でも、ブラウザの設定でCookie受け付けないようにしていたり、定期的にCookieを削除している場合は、正しい識別はできないことは理解しておくべきだろう。

また、「IPアドレス＋UA」の識別方式でも同様に言えることだが、「訪問者」というのは生身の人間を識別しているわけではなく、「同一PCの、同一ブラウザ」を識別しているだけである。この点誤解のないように、アクセス解析のデータに触れるメンバー全員に徹底を図っていただきたい。

ここまで、アクセス解析の測定方式から、PV、訪問、訪問者という指標について注意すべき点を見てきた。しかし、これだけではなく、データの取り扱い方に関しても注意が必要である。これについては次回で引き続き述べたい。