アンケート結果の平均値の出し方! 中央値/最頻値との違いや最適な集計方法
選択式のアンケート、平均はどう算出する?
どんな調査や集計であれ、平均値というのはもっともよく使われる指標の1つです。ところが、その平均値の計算の仕方にもいろいろな方法があり、どういうやり方で算出したのかを把握していないと、思わぬ間違いを犯すことがあります。
例を挙げて説明しましょう。あるアンケート調査で、世帯年収を尋ねました。選択肢形式とし、次のような回答だったとします。この場合に世帯年収の平均を算出したいと思うのですが、あなたならどうしますか?
no. | 世帯年収 | 回答人数 |
---|---|---|
1 | ~200万円未満 | 13人 |
2 | 200万円~400万円未満 | 24人 |
3 | 400万円~600万円未満 | 55人 |
4 | 600万円~800万円未満 | 34人 |
5 | 800万円~1,000万円未満 | 14人 |
6 | 1,000万円~1,200万円未満 | 7人 |
7 | 1,200万円~1,500万円未満 | 8人 |
8 | 1,500万円~2,000万円未満 | 3人 |
9 | 2,000万円以上 | 3人 |
合計 | 161人 |
選択肢の2から8は、それぞれの回答の代表値として、各選択肢の年収の幅の中間値を使えばよいだろうと想像したことと思います。それでは1と9の選択肢における代表値はどうしましょう。
こうしなければならないという決まりはないと思いますが、私が昔教わった方法は、隣接する選択肢の代表値との差分を伸ばすというものです。1であれば、選択肢2の代表値が300万円で、選択肢1との差分が100万円ですから、「200万円~100万円」で100万円を代表値とします。9の選択肢では、同様の方法で「2,000万円+250万円」で2,250万円となります。
no. | 世帯年収 | 代表値 | 回答人数 |
---|---|---|---|
1 | ~200万円未満 | 100万円 | 13人 |
2 | 200万円~400万円未満 | 300万円 | 24人 |
3 | 400万円~600万円未満 | 500万円 | 55人 |
4 | 600万円~800万円未満 | 700万円 | 34人 |
5 | 800万円~1,000万円未満 | 900万円 | 14人 |
6 | 1,000万円~1,200万円未満 | 1,100万円 | 7人 |
7 | 1,200万円~1,500万円未満 | 1,350万円 | 8人 |
8 | 1,500万円~2,000万円未満 | 1,750万円 | 3人 |
9 | 2,000万円以上 | 2,250万円 | 3人 |
合計 | 161人 |
今回の調査の世帯年収の平均値は、1から9までの「代表値×回答人数」を足した額を回答人数の合計で割って算出した額、すなわち639万円です。
自由記入式の場合の問題点
たいていの場合は、回答を選択肢から選ぶ形式になっていることが多いですが、自由記入という方法もあります。自由記入はより細かい分布の実態や、正確な平均値を算出するためには有効である一方、想定を超える回答があったら困ってしまいます。完全に自由ではなく、次のように4桁のマスを用意して回答してもらう例で見てみましょう。
この場合に、たとえば「9999」と記入した回答があったらどうしましょう。回答者は1億円以上の年収があるので、こう表現したのだと思います(1億円を超える場合に、回答者を悩ませる点でもこの自由記入は、あまり良い例とは言えませんが、それは今回置いておきましょう)。
この場合は、この質問のこの回答だけを「外れ値」として集計から除く処理を行うという判断をすることがあります。世帯年収の単純平均を算出すると、この回答が平均値をかなり押し上げてしまうからです。
年収などの場合は、その回答の分布はなだらかな山の形を形成することが多いのですが、分布から極端に離れた値にごく少数の回答が存在することがあります。これを異常値として排除するのです。科学の実験などでもこういった処理を行うことがあります。
普通の調査では、中央値や最頻値を併用するとよい
全体を代表する値という指標はいくつかあります。平均値は最も代表的な指標です。全部の数字を足して、全体の数で割った結果が平均値(算術平均)です。分布が正規分布(左右対称の均一な山型の分布)から少し外れる場合は、この他にも中央値や最頻値を併用するといいでしょう。回答値を昇順あるいは降順などの順番に並べて、ちょうど真ん中の人の値を「中央値」といいます。また最も分布が多い値を「最頻値」といいます。
上図は国税庁の「平成17年の民間給与実態調査」の結果です。この調査はサンプル調査で、それをもとに全体を推計したものだと思います。また年収は選択肢方式ではなく、年間給与支給総額の実額を調べています。発表資料に記載されている年収階級を使って図にしたものです。
この例では、最頻値が300万円~400万円のカテゴリ、中央値は400万円~500万円のカテゴリにあります。また平均値は約540万円で、中央値よりさらに1つ右の階級に属しています。
少し左側にピークが寄っているこのような分布では、平均がピークより右側に位置します。平均値が何となく庶民感覚とずれるのは、平均値が高額所得者によって右にずれるからです。
集計方法で結果はいかようにも変化する
これらの例でもおわかりのとおり、どういう質問形式にするか、どういう集計をするかで、同じことを聞いても、全然結果が違ってくるということがあります。前回もまとめでお話ししましたが、調査票を見ることで、集計方法に拠る影響も想像できるので、調査概要や調査票に戻るということがやはりポイントです。
しょせん、ある程度の幅の選択肢から平均を求めようとしても正確ではありません。このような場合は、また次回に同様の調査を行った際に、同じ処理をして、大雑把に上がったのか下がったのかといったことを確認する程度に使いましょう。
ウェブサイトのアクセス集計に「代表値」は使えない?
アクセス解析ではどうでしょうか。インターネットの利用行動の多くは、正規分布することがありません。アマゾンで売れた本の売上冊数分布を並べると恐竜の長い尻尾のような形になることから「ロングテール」という言葉は有名になりました。
あるウェブサイトのアクセス解析データで、このロングテール型になる指標の例としては、次のようなものがあります。
- 参照元の分布
- 検索ワードの分布
- ある期間(1か月間とか)の訪問回数分布
- 1人あたりの閲覧ページ数分布
- 人気ページの分布
上記4の「1人あたりの閲覧ページ数分布」の例を下に示しました。
どうでしょう。先に説明した3つの指標を駆使してみましたが、どれ1つとして全体を代表させる機能を持たせるには無理がありますね。
平均滞在時間の算出方法に潜む問題
ウェブサイトのアクセスを測る指標の1つにページビュー数がありますが、最近ではページビュー数に代わり、総利用時間や平均滞在時間をより重視することも多くなってきました。ページビュー数の場合、ユーザー側では何ページも見ていると感じている場合でも、アクセスデータ上では1ページとしかカウントしないという問題があるからです。
たとえばFlashで作ったコンテンツやAjaxといった技術を用いている場合に、計測するための仕掛けをしていないと、1ページビューしかカウントされないことがあります。もちろんある仕掛けをして計測できるように工夫することもできます。
つまりページビューをどうカウントするかは、サイト運営者がどういう計測をしたいかという主体的な判断に拠る部分もあるということです。
ページビューのカウントのこういった問題を解決するため、米Nielsen Onlineは2007年7月に、インターネット利用動向調査 NetViewに「総利用時間」のランキングを導入するという発表を行いました(http://www.netratings.com/pr/pr_070710.pdf、リンク先はPDF)。
「総利用時間」のベースになるのは各ウェブページの閲覧時間ですが、たいていのアクセス解析のツールの場合、そのページと次のページがリクエストされた時間差をそのページの閲覧時間としていると思います。
では最後のページ閲覧はどうカウントするのでしょう。Google Analyticsでは、最後のページの閲覧を一律0秒とカウントしています。一時期カウント対象外としたようですが、再び0秒として集計に含める変更を行っています(http://analytics-ja.blogspot.com/2007/09/back-to-original-average-time-on-site.html)。
ツール上で指標の集計方法をどう定義するかは、そのツール提供企業の判断なのでどうにもできませんが、この1ページ閲覧の滞在時間をすべて0秒とカウントすることを、私は好ましいと思っていません。
たとえばブログなどは、1ページしか見られない閲覧パターンが大半だと思われます。たとえば過半数の閲覧が滞在時間0秒とカウントされたとしたらどうでしょう。そのウェブサイトの平均滞在時間とはどのように使えばよいでしょうか。
好き嫌いの話は別として、ご自分のお使いのツールで最後に閲覧したページの滞在時間のカウント方法をご存知ですか? とんでもない思い込みを今までしていなかったでしょうか。
平均値の算出方法が2つある?
平均値といった単純な集計では、誰が考えても計算式に思い違いはないと思います。しかし少し込み入った「平均値」の場合どうでしょうか? あるアクセス解析の開発のシーンで、マーケティング担当者が「月次データの1訪問あたり平均ページビュー数」という指標を開発者に指示しました。ところが2人が思っていた計算式は別々だったという例です。
開発を指示したマーケティング担当者は、月次トータルのデータで、1訪問あたりのページビュー数を計算したものを考えていました。上の例では、ページビュー数、訪問回数それぞれの月次合計の割り算である「6.3」です。
ところが、開発者は「平均」という言葉に過度に反応してしまいました。平均ですから、複数のデータの平均値を算出することだと理解しました。月次の平均といえば、日別のデータを平均するということと解釈し、毎日の1訪問あたりのページビュー数の28日分の平均を算出し「7.0」となりました。
開発者は生のデータからさまざまな中間データを生成しておきます。そして日別、週別、月別などのデータも生成します。さまざまな中間データを駆使して、なるべく集計負荷の少ない方法で計算できないかと考えても無理はありません。順番を少し変えて集計すると、意味合いがかなり変わってしまうということまで気が回ることは少ないのです。
指標の定義は計算式で明快に表そう
この例の教訓は、指標の定義は計算式を明示するということです。開発者に対しても、ユーザーに対しても誤解を与えないことが重要です。この例では、出てきた値に大きな違いはありませんでしたが、大きな違いが出ないという保証はありません。
私もさまざまなツールを使っていますが、誤解をきたさないようにマニュアルにきちんと指標の定義を計算式付きで載せてほしいと思います。マニュアルすら用意していないツールもありますが、とても信じられません。
次回が最終回で「外部環境」を取り上げます。
- 選択式のアンケート、平均はどう算出する?
- 自由記入式の場合の問題点
- 普通の調査では、中央値や最頻値を併用するとよい
- 集計方法で結果はいかようにも変化する
- ウェブサイトのアクセス集計に「代表値」は使えない?
- 平均滞在時間の算出方法に潜む問題
- 平均値の算出方法が2つある?
- 指標の定義は計算式で明快に表そう
ソーシャルもやってます!