平均値で考えると失敗するロングテール指標を理解しておこう [アクセス解析tips]
アクセス解析のレポートで、よく「平均値」が使われているが、正しいデータの読み方なのだろうか? 今回は、平均値で見ると読み誤るロングテールの指標を紹介し、そういったデータの平均値以外での読み方を紹介する。
ロングテールは慣れ親しんだ統計処理をしてもダメ
「ロングテール」とは、Amazon.comなどのビジネスモデルを説明するために米Wired誌の編集長クリス・アンダーソン氏が提唱した概念。「上位の20%のアイテムが売上全体の80%を占める」とか「2割の有能な人が全体の8割を売り上げる」といった、いわゆるニッパチの法則(パレートの法則)でも知られている古くからある話に対して、インターネットによって小さな個別ニーズを累積できるようになった状況を、キャッチーなネーミングでうまく表現したものである。
自然現象のみならず、社会現象などでも、こういったパターンの分布が従来から多々ある。もちろんインターネットでもだ。しかし、いわゆる「統計データ」などの話になると、我々は「サイコロを2つ投げて出た目の合計は、回を重ねて平均値を出すと正規分布している」といった、特殊な統計に慣れてしまっている。
今回は、今まで刷り込まれた統計の知識が役に立たないことをお話ししていきたい。具体的には、平均や偏差値といったものが、インターネット利用行動データではいかに無力であることが多いのかを知っていただきたい。
ロングテールはどれか?
次のWebサイト関連のデータうち、ロングテールに分布していそうな指標はどれだろうか?
- 毎日(日次)のページビュー数
- 1人当たりのページビュー数
- 参照元ドメイン名別件数
- 検索フレーズ別件数
- URL別ページビュー数
- 入り口ページ別件数
- 入り口ページ別直帰率
少し手間ではあるが、まず自分できちんと考えてから答えを出し、その後自分のサイトのデータをグラフ化して、答え合わせをし、間違っていたらなぜ最初にそう考えたかを思い出してみることをお勧めしたい。なぜなら、手間を掛けたこの方式が実は最も身につくからだ。すぐに答えを見てしまうと、頭ではわかったつもりになっても、なかなか覚えることはできない。いつのまにか平均値を何食わぬ顔で、非常に重要な指標として「活用」してしまうことだろう。
正解は、次に示す5つの指標がロングテールなデータになる。
- 1人当たりのページビュー数
- 参照元ドメイン名別件数
- 検索フレーズ別件数
- URL別ページビュー数
- 入り口ページ別件数
しかし、C.~Fの4つは横軸が数字ではない値なので(参照元ドメイン名なら「google.co.jp」とか、検索フレーズなら「健康食品」とか)、これらの指標では平均値というものは存在しない。単なる何番目のデータというのが横軸になる。これらどの数値もテールの部分は小さくて見るのも面倒なので、あまり見ることがないデータであることは共通している。
ロングテールの指標の平均値はどの辺りか?
では、次に下図をご覧いただこう。アクセス解析でたまに見たことがあるデータだと思うが、「1セッション(訪問)当たりの閲覧ページビュー数」の分布を示したものである。1ページだけ見て帰ってしまう直帰率と併せて、いかにサイトが回遊して見られていないかを見せ付けられるデータの1つだ。これもいわゆるロングテールになっている指標のデータである。
我々は、全体を代表する統計データとして、
- 平均値(算術平均)
- 中央値(データの数のちょうど真ん中のところの値)
- 最頻値(もっとも多い数を占めるところの値)
といったものを使うことがあるが、では上図で1セッション当たりの閲覧ページビュー数の「平均値」は、次の3つのうちどれになるだろうか?
- 1.8
- 2.8
- 3.8
もし可能ならば、中央値と最頻値もあわせて予想してみてほしい。上図では1セッション当たりの閲覧ページビュー数が15以下のものだけを表示したが、実際は下図のように本当に超ロングテールのデータであることを留意していただきたい。
これは月間の実際のデータなのだが、1セッション当たりサイト内で250ページ見ていた人が実際にいた。
Webデータにおける平均値、中央値、最頻値
では、問題の正解を発表しよう。下図にもあるとおり、平均値は3.8となる。ちなみに最頻値は1、中央値は2である。
図2を見ていただければわかるように、Webサイトの閲覧行動は非常に偏っている。まずたいていのサイトで最頻値は「1」だろう。直帰率が20%とか非常に小さいサイトであれば「2」かもしれないが、Yahoo!やGoogleのような巨大サイトでもない限り普通は「1」。すなわち全体を代表させる統計値としてまったく使い道はない。
中央値が「2」というのは、多くの方の予想よりもずいぶん小さく感じるのではないだろうか。最頻値「1」はグラフを見れば一目瞭然だが、中央値や平均値はグラフを一見したときの感覚とはずいぶんずれているのが普通だ。逆にいえば、WebサイトのPVデータをレポートする際に、平均値や中央値を代表的な値として使うのは、あまり適切でないということになる。
私がアクセス解析を教えている現場では、こうした実例をベースに教えているのだが、逆にまず平均3.8であると仮定して、その分布を描いてもらうと意外と多くの人が正規分布に近い分布のパターンを描く。
自分のサイトの直帰率や1セッション当たりの閲覧ページビュー数など、さまざまなデータは目に触れているのだが、これらが有機的に結びついて、ユーザーの本当の利用行動を理解するところまで実は消化しきれていないことが多々あるのだ。つまり平均値という1つの代表値から、ユーザーの行動パターンの分布を知ることは大変難しいものなのである。
平均値だけではなく、分布を見ないとネットの利用行動の特性を理解することはできないのだと知っておこう。いや知るだけではなく、必ず自分のサイトのデータを確認して分布を目に焼き付けておこう。そしてその分布の場合の平均値がいくつかという事実もだ。
最後に念のため言っておきたいが、平均値がすべて使い物にならないと言っているのではない。どの指標において、「平均」が曲者になるかを知っておこうということだ。
まとめ
- ロングテールになるWebサイトデータを頭に入れておこう
- 平均値だけでロングテールデータを見ようとすると、見誤ることがある
- ネットの利用行動特性を把握する際には、平均値だけでなく、必ず分布を見るようにしよう
ソーシャルもやってます!