初代編集長ブログ―安田英久

相関関係と因果関係は別モノだ&Web担の解析データから相関係数表を大公開

「相関性がある=因果関係がある」とは限らない
Web担のなかの人

今日は、アクセス解析や統計の話を。Excelを使えばいろんなデータから相関関係を簡単に出せますが、だからといってそのデータが問題解決につながるとは限らないのです。

Excelには「CORREL」という関数があり、2つのデータ群について相関関係を簡単に出すことができます。しかし、この「相関関係」と「因果関係」を混同してしまっている例があります。統計ではごく基本的なことなのですが、基本的なことこそ大切なので、改めて解説しておきましょう。

「相関関係」とは、「ある値Aが増えた(減った)状態で、別の値Bが同様の変化を示していること」を意味します。また、ある値Aが増えた状態で別の値Bが減ることを「逆相関」といいます。

たとえば、アクセス解析データで、ある期間の訪問者数とPV数の間で相関関係を出すと、かなり高い相関性が見られるでしょう。つまり、訪問者数が増える状況では、同様にPV数も増えているのです。

また、海外&国内SEO情報で取り上げた「順位決定に与えるSEO要因比較 グーグル vs. Bing」でも、さまざまなSEO要因と順位について相関係数を示しています。

http://web-tan.forum.impressrd.jp/e/2010/06/18/8214#pickup01

上記の相関関係のデータは「訪問者数が増えればPV数が上がる」「URLにリンクしているルートドメイン名の数が多ければ多いほど検索結果での順位が上がる」という、原因と結果を表しているデータである可能性が高いでしょう。しかし、そうではない場合も多いのです。

ここで重要なのは、「相関関係」が示すのはあくまでも現象であって、必ずしも「Aが増えればBが増える」という「因果関係」を意味しているわけではないことです。

つまり、「相関性がある=因果関係がある」とは限らないのです。

アクセス解析の例でいうと、「記事に対するTweet数とアクセス数に相関性がある」ことから、Twitterでスパムアカウントを大量に作成して各アカウントでtweetしまくったり、自分のTwitterアカウントで大量に記事へのリンクをtweetしたりしても、おそらくアクセス数はさほどは上がらないでしょう。幅広いアクセスを得るには、見てもらえているTwitterアカウントで、フォロワーが興味をもつ内容のコンテンツをtweetする必要があるのは、Web担当者ならわかることです。

少しアクセス解析から離れて例を示しましょう。

仮に、子供の成績と、その親が持ち家を所有しているかどうかに高い相関性がみられたとします。では、親が持ち家を購入すれば子供の成績が上がるのでしょうか? おそらく、この相関性は、「親が持ち家を購入できるくらい裕福であれば、子供の教育費も比較的多く使い、良い教育を受けさせているから子供の成績が上がる」という関係ですので、親がどれだけがんばって持ち家を購入しても、教育費を増やさなければ子供の成績は上がらないでしょう(あくまでも、これは説明のための仮の例ですよ)。

また、ビアホールの入場者数と気温の高さには相関性があるからといって、無料券を大量にバラまいてビアホールに人を多く呼び寄せたとしても、気温が上がるわけではないのは当然でしょう。

もし、相関関係から因果関係の有無を判断したい場合は、次の5点に注意するのが良いようです。

<相関係数と因果関係>
相関係数から因果関係を確定するには次の5点に留意しましょう。

1.関連の時間性:原因は結果の前に存在する。
2.関連の密接性:原因が結果と密接に関連する。
  (量反応関係があると因果関係の可能性が強い)
3.関連の特異性:原因が結果の発生に特異的に係わっている。
4.関連の普遍性:時期、対象、方法が異なっていても類似した結果が得られる。
5.関連の合理性:従来の経験、理論などから考えても矛盾しない説明がつく。

この5点が満たされていれば因果関係はかなり確実性が高いと言えるでしょう。(必ずしも1~5全てを満たす必要はありません

ウータンの統計講座より(強調・改行は筆者による)
http://www.takenet.or.jp/~hayakawa/u-tan1-1.htm

繰り返しますが、「相関性がある=因果関係がある とは限らない」ということは頭に入れておきましょう。

Web担の過去データに見るアクセス解析要素の相関性

これだけだとおもしろくないので、このネタの元になった、アクセス解析データの要素間の相関性の表をご覧に入れましょう。

  • この表は、Web担のアクセス解析データの月次集計を元に出しています(2007年1月~2010年5月分、Google Analyticsほかから取得)。
  • 月次データは、どの月でも30日換算データに変換してあります。
  • 数値はExcelのCORREL関数で求めた値です。
  • 相関係数が0.9以上または-0.9以下のセルは赤色背景で示してあります。
  • 相関係数が0.65 ~ 0.9または-0.65 ~ -0.9のセルは太字で示してあります。
  • 相関係数が0.65未満 -0.65超のセルは文字色を薄くしてあります。

見やすく(?)するためにサイドバーを突き破っていますので、サイドバーを利用される方はトップページなどに戻ってください。

このデータを作った意図や読み取ったことは、表の後に。

 ロボット込みのPV数ページビュー数ユニークユーザー数セッション数新規セッション率(%)平均訪問回数平均ページビュー数直帰率(%)トップページ閲覧開始数トップページ直帰率トップページPV数トップページセッション数ノーリファラー参照サイト検索エンジン(有料)検索エンジン(オーガニック)最多訪問記事PV数最多訪問記事セッション数公開記事数(全体)公開記事数(編集記事)公開記事数(ニュース)公開記事数(ユーザー投稿)累積記事数フィード購読者数フィードヒット数フィードビュー数フィードクリック数
ロボット込みのPV数
0.95
0.97
0.96
0.59
-0.81
0.15
0.00
0.61
-0.46
0.76
0.71
0.95
0.68
-0.12
0.95
0.64
0.63
0.49
0.45
0.02
0.55
0.95
0.96
0.75
0.88
0.79
ページビュー数
0.95
0.98
0.97
0.51
-0.75
0.30
-0.13
0.73
-0.48
0.87
0.81
0.92
0.75
-0.12
0.93
0.66
0.65
0.46
0.32
0.09
0.56
0.89
0.93
0.70
0.77
0.77
ユニークユーザー数
0.97
0.98
1.00
0.60
-0.82
0.13
0.00
0.67
-0.47
0.80
0.76
0.95
0.77
-0.03
0.96
0.68
0.69
0.47
0.39
0.06
0.54
0.91
0.95
0.71
0.83
0.82
セッション数
0.96
0.97
1.00
0.55
-0.77
0.10
0.04
0.68
-0.50
0.80
0.77
0.97
0.80
-0.02
0.96
0.67
0.68
0.50
0.44
0.06
0.53
0.91
0.95
0.73
0.84
0.84
新規セッション率(%)
0.59
0.51
0.60
0.55
-0.88
0.01
-0.05
0.22
0.10
0.27
0.16
0.53
0.27
0.13
0.61
0.49
0.50
0.40
0.20
0.17
0.49
0.60
0.52
0.31
0.55
0.37
平均訪問回数
-0.81
-0.75
-0.82
-0.77
-0.88
-0.09
0.01
-0.46
0.09
-0.52
-0.45
-0.73
-0.45
0.02
-0.81
-0.59
-0.60
-0.34
-0.28
0.03
-0.50
-0.81
-0.79
-0.58
-0.74
-0.59
平均ページビュー数
0.15
0.30
0.13
0.10
0.01
-0.09
-0.88
0.25
-0.05
0.39
0.20
-0.03
-0.06
-0.33
0.14
0.14
0.08
-0.07
-0.48
0.21
0.29
0.10
0.12
-0.01
-0.16
-0.15
直帰率(%)
0.00
-0.13
0.00
0.04
-0.05
0.01
-0.88
-0.12
0.02
-0.26
-0.05
0.15
0.28
0.17
-0.06
-0.06
0.01
0.08
0.53
-0.23
-0.33
0.02
0.03
0.17
0.26
0.22
トップページ
閲覧開始数
0.61
0.73
0.67
0.68
0.22
-0.46
0.25
-0.12
-0.14
0.89
0.93
0.61
0.67
-0.28
0.56
0.49
0.50
0.28
0.13
0.06
0.43
0.48
0.58
0.43
0.40
0.46
トップページ
直帰率
-0.46
-0.48
-0.47
-0.50
0.10
0.09
-0.05
0.02
-0.14
-0.47
-0.46
-0.51
-0.35
0.00
-0.49
-0.15
-0.12
-0.13
-0.21
0.16
-0.22
-0.47
-0.50
-0.40
-0.40
-0.59
トップページ
PV数
0.76
0.87
0.80
0.80
0.27
-0.52
0.39
-0.26
0.89
-0.47
0.94
0.75
0.67
-0.24
0.72
0.48
0.47
0.36
0.16
0.11
0.53
0.66
0.72
0.50
0.52
0.60
トップページ
セッション数
0.71
0.81
0.76
0.77
0.16
-0.45
0.20
-0.05
0.93
-0.46
0.94
0.73
0.74
-0.28
0.66
0.50
0.50
0.26
0.19
-0.03
0.41
0.58
0.68
0.53
0.52
0.61
ノーリファラー
0.95
0.92
0.95
0.97
0.53
-0.73
-0.03
0.15
0.61
-0.51
0.75
0.73
0.76
-0.01
0.92
0.63
0.63
0.54
0.59
0.03
0.45
0.91
0.92
0.75
0.90
0.85
参照サイト
0.68
0.75
0.77
0.80
0.27
-0.45
-0.06
0.28
0.67
-0.35
0.67
0.74
0.76
-0.15
0.59
0.61
0.67
0.30
0.27
0.09
0.22
0.55
0.65
0.51
0.54
0.61
検索エンジン
(有料)
-0.12
-0.12
-0.03
-0.02
0.13
0.02
-0.33
0.17
-0.28
0.00
-0.24
-0.28
-0.01
-0.15
0.06
-0.16
-0.14
0.23
0.23
0.15
0.02
-0.01
-0.04
-0.03
0.00
0.10
検索エンジン
(オーガニック)
0.95
0.93
0.96
0.96
0.61
-0.81
0.14
-0.06
0.56
-0.49
0.72
0.66
0.92
0.59
0.06
0.66
0.64
0.54
0.47
0.03
0.62
0.96
0.96
0.75
0.86
0.86
最多訪問記事
PV数
0.64
0.66
0.68
0.67
0.49
-0.59
0.14
-0.06
0.49
-0.15
0.48
0.50
0.63
0.61
-0.16
0.66
0.98
0.35
0.21
0.09
0.45
0.61
0.66
0.62
0.53
0.52
最多訪問記事
セッション数
0.63
0.65
0.69
0.68
0.50
-0.60
0.08
0.01
0.50
-0.12
0.47
0.50
0.63
0.67
-0.14
0.64
0.98
0.33
0.18
0.12
0.41
0.58
0.64
0.55
0.53
0.50
公開記事数
(全体)
0.49
0.46
0.47
0.50
0.40
-0.34
-0.07
0.08
0.28
-0.13
0.36
0.26
0.54
0.30
0.23
0.54
0.35
0.33
0.67
0.63
0.68
0.55
0.46
0.40
0.57
0.57
公開記事数
(編集記事)
0.45
0.32
0.39
0.44
0.20
-0.28
-0.48
0.53
0.13
-0.21
0.16
0.19
0.59
0.27
0.23
0.47
0.21
0.18
0.67
-0.04
0.21
0.56
0.48
0.56
0.69
0.67
公開記事数
(ニュース)
0.02
0.09
0.06
0.06
0.17
0.03
0.21
-0.23
0.06
0.16
0.11
-0.03
0.03
0.09
0.15
0.03
0.09
0.12
0.63
-0.04
0.31
-0.03
-0.07
-0.16
-0.01
-0.07
公開記事数
(ユーザー投稿)
0.55
0.56
0.54
0.53
0.49
-0.50
0.29
-0.33
0.43
-0.22
0.53
0.41
0.45
0.22
0.02
0.62
0.45
0.41
0.68
0.21
0.31
0.59
0.53
0.38
0.40
0.53
累積記事数
0.95
0.89
0.91
0.91
0.60
-0.81
0.10
0.02
0.48
-0.47
0.66
0.58
0.91
0.55
-0.01
0.96
0.61
0.58
0.55
0.56
-0.03
0.59
0.97
0.79
0.88
0.86
フィード購読者数
0.96
0.93
0.95
0.95
0.52
-0.79
0.12
0.03
0.58
-0.50
0.72
0.68
0.92
0.65
-0.04
0.96
0.66
0.64
0.46
0.48
-0.07
0.53
0.97
0.84
0.86
0.85
フィードヒット数
0.75
0.70
0.71
0.73
0.31
-0.58
-0.01
0.17
0.43
-0.40
0.50
0.53
0.75
0.51
-0.03
0.75
0.62
0.55
0.40
0.56
-0.16
0.38
0.79
0.84
0.74
0.74
フィードビュー数
0.88
0.77
0.83
0.84
0.55
-0.74
-0.16
0.26
0.40
-0.40
0.52
0.52
0.90
0.54
0.00
0.86
0.53
0.53
0.57
0.69
-0.01
0.40
0.88
0.86
0.74
0.79
フィードクリック数
0.79
0.77
0.82
0.84
0.37
-0.59
-0.15
0.22
0.46
-0.59
0.60
0.61
0.85
0.61
0.10
0.86
0.52
0.50
0.57
0.67
-0.07
0.53
0.86
0.85
0.74
0.79

この表は、FirefoxアドオンのTable2Clipboardを使うと、簡単にExcelに取り込めます。

このデータを作ったのは、そもそもアクセス数を増やすにはどの要素を増やすのが良いかをみるためでした。

データとしてはおもしろいのですが、結果としては「うーん」という、作って満足的なものになってしまった感があります。

ただ、こんなことは読み取れた気がします。

  • 一般向けの人気サイトからリンクを張られて流入があると、大きくアクセス数が動いた印象があるのですが、結局そういうことが多々あるわけではなく、検索エンジンからの流入を地道に増やすほうが全体への影響は大きい。

  • 上記項目と関係がありますが、やはり累積記事数(全体のページ数)が増えれば増えるほど、全体のアクセス数は向上している。ただし、サイトの成長(認知度向上やファンの獲得)と累積記事数は同時に進んでいるので、直接の因果関係かどうかは不明。

  • 意外とフィードの購読者数とアクセス数の相関性が高い。上記項目と同様に因果関係かどうかは不明だが、フィードのクリック数とセッション数の相関性が比較的高いので、フィードは無視できないソースの1つである可能性が高い。

うーん。正直この解析方法は、かける工数の割りに得るものが少ない気がしますが、みなさん、いかがでしょうか?

用語集
SEO / アクセス解析 / サイドバー / セッション / ドメイン名 / ヒット / フィード / ページビュー / ユニークユーザー / リンク / ロボット / 検索エンジン / 直帰率 / 訪問 / 訪問者
この記事が役に立ったらシェア!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

Python
「Python」(パイソン)は、プログラミング言語の1つ。プログラマのグイド・ヴ ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]