【これ、関係ある?】アイスが売れるとビールが売れる? 仕事に使える「相関関係」入門
相関関係ってなんだろう?

もうすぐ夏ですね。ナツナツココナッツアイスの季節です!

もうすぐ春ですよ。夏の話をするには、ちょっと季節…いや、時代を先取りしすぎているような…。ところで、アイスの売上が上がるとビールの売上も上がるよね。

そうなんですか?まあ、そんな気がしないでもない。

アイスの売上とビールの売上には、「相関関係」があるのかな。

そうかんだー(そうなんだー)。

今笑うところ?

あ、ところで「相関関係」って何ですか? なんとなく使ってますけど、実はちゃんと理解できていない気がします

なるほど。じゃあ、勉強しておいてね!

え、放置⁉
昔から、算数も数学も苦手なアユムは、希望が叶ってマーケティング部門に異動してきました。Web担で見るような「すごいマーケターになりたい!」と胸を躍らせていたが、配属後、理想と現実のギャップに苛まれることに。データ、数字、%、小数。うわぁーん、どうしたら、数字に強くなれるのでしょうか……。
そこに現れたのが、大人向け数学教室「大人塾」を運営し、数学苦手な社会人に対して指導をしているアジアゾウをこよなく愛するモリさん。

この記事を読むべき人: 相関関係の意味を理解したい方
この記事を読む必要がない人:相関関係を理解している方
この記事でわかること:相関関係とはなにか
相関関係とは

モリさん、相関関係について教えてください。

市原ぞうの国に滞在する時間と、ゾウさんへ貢ぐためのおやつバケツへの出費は正の相関ですね。滞在時間が長くなると出費も増加するという関係です。

ますます、まったく、わからない。

そうですか。それでは、相関関係の意味と解釈、相関係数の考え方について説明をします。深掘りすると難しくなるので、今日は相関関係の基本を押さえましょう。
まずは、相関関係の意味について説明します。2つの変数の関係が相関です。どの程度関係しているかを数値で表します。これを相関係数といいます。

2つの変数…係数…これだけでお腹いっぱいです。

簡単な例を挙げると、数学と国語のテストの点数の関係です。数学の点数が高い人は国語の点数も高い傾向があるとしましょう。これは、一方の値が大きくなると、他方の値は大きくなる(または小さくなる)という関係ですね。2つの変数間にこのような関係があるとき、相関関係があるといいます。

なるほど。相関が「ある」「ない」は、どうやって判断するんですか。

相関の強さを表す指標として、相関係数を使います。

そうかんだー(2回目)

相関係数は、-1から1の間の値です。

-1が激よわ相関ってことですか。

いえ、相関係数が0に近いと相関がない(無相関)と考えられます。激よわです。1または-1に近づくほど、2つの変数の関係は強いといえます。

なるほど。
散布図と相関関係

では、相関関係をイメージしやすくするために、散布図を見てみましょう。

散歩図? 散歩のための地図?

いえ、散布図は、2つの変数の関係を点で表した図です。データの散らばり具合から、2つの変数の関係を視覚的に確認できます。
こんな図を見たことはありませんか?


あります!!! いつもフーンくらいにしか思ってなかった……これは、どうやって読むのですか。

たとえば、数学と国語のテストがあるとしましょう。数学、国語どちらも100点満点で、Pさんの数学の点数は50点、国語の点数は75点でした。横軸を数学、縦軸を国語の点数として、その点数の組み合わせを表す場所に、点をつけます。

こんな感じですね。


はい。同じように他の人の点数も点で表していきます。すると全体的な傾向を示す図ができます。

すべての点をつけたら、点々の間を通るように、平均的な傾向を示す直線を引きます。この直線と点の分布がどれくらい一致しているか、この直線からどれくらい点が離れているかを求めた値が相関係数です。(これは相関係数の基本的な考え方であり、厳密な説明ではありません)


具体的には、どうやって求めるんですか?

計算式で説明すると長くなりますが、点と平均との差を計算して、それらを組み合わせて...一般的な説明では、共分散を標準偏差の積で割って…というような計算になります。

なるほど。ややこしいですね。

でも大丈夫! Excelを使っている場合はCORREL関数で一発ドン! と相関係数が求められますよ!

文明の利器、万歳。

相関係数には、プラスの値をとる「正の相関」と、マイナスの値をとる「負の相関」があります。そして、相関係数が0に近い場合は「無相関」といいます。

散布図で見ると、右上がりの傾向なら正の相関、右下がりなら負の相関なんですね。


その通りです。正の相関は、一方が大きくなると他方も大きくなる関係、負の相関は一方が大きくなると他方が小さくなる関係を表します。無相関は、どちらの傾向も見られない状態です。

相関が強いとか弱いとかの基準はあるんですか?

相関の強さについては、一般的に以下のような基準で解釈します。
±0.7以上:強い相関
±0.4-±0.7:中程度の相関
±0.2-±0.4:弱い相関
±0.2未満:ほとんど相関なし
数学と国語の点数の相関係数が0.6であれば、中程度の相関があるといえますね。

なるほど。相関係数の数字の意味がわかりました。
疑似相関には気を付けて

ところで、冒頭の「アイスとビールの売上の相関」ですが、確かに相関係数を求めると高い数値になりそうです。

関係があるということは、アイスが売れる店では、ビールも積極的に売り出すべきってことですか?逆もまた然りで。

ちょっと違いますね。実は、この2つの売上には「気温」という別の要因が影響しているんですよ。

あー! 確かに両方とも暑い夏に売れますもんね。

このように、実は別の要因が影響している場合を「疑似相関」「見せかけの相関」と呼びます。関係があるように見せかけて、実は他の要因が両方に影響しているんですね。

見せかけ…疑似…におわせの相関って響きですね。

おおう。
外れ値を見つけたら

散布図を見るときには、全体の傾向から大きく外れた点にも注目する必要があります。このような点を「外れ値」と呼びます。外れ値は分析結果に大きな影響を与えることがあるので、特に重要です。

外れ値を見つけたら、見なかったことにすればいいですか?

いいえ、外れ値は時として重要な情報を持っています。外れ値を見つけたら、なぜその値が他と大きく異なるのか、原因を調べるとよいですね。
それでは、外れ値が分析結果にどのくらい影響するかどうかを具体的に見てみましょう。20人のクラスのテストの点数を例に考えます。国語の平均点が約43点、数学の平均点が約42点だったとしますよね。大体皆そんな感じの点数なのに、実はその中に1人だけ両方95点をとった人がいると、以下のような図になります。


その人がいなければ、もう少し「塊」っぽいですよね。相関係数はどうなるのでしょう。

両方とも95点の人を入れると相関係数は0.72、その人を省くと-0.32です。

わわわわ! 外れ値を含むか、含まないかで、そんなに相関係数が変わってしまうんですね。

はい、だから、相関係数を計算する前に、外れ値の確認と外れ値を省くのか、省かないのかも含めてデータの処理を行う必要がありますゾウ。

突然のゾウ。
共通テストの「情報の問題に挑戦」

2025年度大学入学共通テスト「情報Ⅰ」の第4問に相関が出題されたんですよ。以下が出題された問題です。
「情報Ⅰ」の第4問
Uさんは、図2のように、各目的の旅行者数を組み合わせた散布図を作成し、相関係数を求めた。これらの散布図と相関係数のみから読み取れることを2つ選べ。

(0) 二つの都道府県を比較して、観光等の旅行者数が多い
方の都道府県は帰省等の旅行者数も必ず多い
(1) すべての都道府県で、出張等の旅行者数は帰省等の旅行者数の1.5倍を下回る
(2) それぞれの散布図で最も上に位置する都道府県は異なる
(3) ある目的の旅行者数が多い都道府県ほど、他の目的の旅行者数も多くなる傾向にある
(4) 各都道府県で観光地をアピールすることで観光等の旅行者数を増やすことができれば、帰省等と出張等のいずれの旅行者数も増える
※筆者所蔵の『2025年度大学入学共通テスト』(大学入試センター)「情報Ⅰ」の第4問から一部改変して引用

へえ。こういう問題が出たんですね。では、それぞれの選択肢を見ていきましょう。よろしくお願いします。

丸投げですね。見ていきましょう。
(0)右下のグラフを見ます。「観光等の旅行者数が多い方の都道府県は帰省等の旅行者数も必ず多い」は、誤りです。正の相関はありますが、観光客が非常に多く、帰省客が少ない右下のマスの点もあります。したがって「必ず」ではないので、誤りです。
(1)左上のグラフでは、出張等の目盛は、帰省等の目盛の1.5倍刻みです。なので、原点から目盛の交点を結んだ直線を引いたとき、直線より上に点があれば出張等の旅行者が帰省等よりも1.5倍いることになります。ですが、グラフではすべての点が直線より下にあるので、(1)は正しいと言えます。

(2)左上のグラフの1番上は(帰省、出張)=(6000,8500)。右上のグラフは(観光、出張)=(11000,8500)で出張の値が一致しているので、同じ都道府県ですよね。右下のグラフは、(観光、出張)=(11000,6000)で観光が一致しているので、全部同じ都道府県を表してますね。でも、選択肢は「異なる」と言っているので、誤りですね。

(3)すべての散布図で正の相関関係があります。これは、ある目的の旅行者数が多いと、他の目的の旅行者数も多い傾向があることを示しています。正しいです。

(4)観光等の旅行者数が増えたとしても、ほかの目的の旅行者数が増えるとは限らない(相関関係)ので、これは誤り!

その通りです! なので、これから「AとBには相関があるよ」といわれたらなんて答えましょう?

壮観だ! って答えます!

そうかんだ…

おあとがよろしいようで。
ポイント
- 相関関係は、2変数の関連を表している
- 相関係数は、2つの変数の関係を表す-1から1の間の値
- プラスの値をとる「正の相関」と、マイナスの値をとる「負の相関」
- 相関係数は0の時に無相関(関連がない)を示し、±1に近づくほど2つの変数の関係が強くなる
- ExcelではCORREL関数で相関係数を出せる
ソーシャルもやってます!