分布図(散布図)とバブルチャートの使い方とは?正しいグラフの見方(第7回)
「データで表現したいことを、効果的にひと目でわからせるための、グラフの種類の選び方、作り方」を紹介する本連載。これまでに「1つのグラフには1つの主張」という考え方をベースにして、「4つのグラフの使い分けポイント」「円グラフ」「棒グラフ」「折れ線グラフ」「2軸グラフ」の作成ポイントと注意点を順に解説してきました。今回は散布図とバブルチャートをご紹介して、本連載の最終回とします。
項目間・指標間の関係性を見るグラフ
まず第2回でご紹介したグラフを再掲載します。これはある媒体のバナー広告のインプレッション数とリーチ(累積到達率)を広告素材ごとにプロットしたグラフです。1つの点がそれぞれ1つの広告素材のインプレッション数とリーチを表しています。たとえば、一番右上にある点として表現された広告素材だと、リーチ数が約320万人で約 1.8億インプレッション表示されたということを意味します。このように散布図は系列数が複数あるデータで、項目間あるいは指標間の関係性を見る場合に使います。
散布図では、各データのプロットに加えて、回帰線(回帰直線)と呼ばれるものが引かれていることがあります。図1の例では、縦軸のリーチと横軸のインプレッション数に高い相関関係がありそうなので、各地点との距離が最も短い線を引いくとどうなるかというものをあらわしています。統計的に厳密な言い方ではありませんが、最も平均的な分布を1つの線にして表したものといってもよいでしょう。
さて、「高い相関関係」という表現をしました。こちらも統計的に詳しい話はしませんが、図1の例では、各データの分布が全体にまんべんなくある訳ではなく、赤の楕円にほぼ収まっているのが分かるかと思います。つまり右肩上がりの限定的な範囲に分布が集中していると判断できます。このようなケースはこの2つの指標の間に正の相関があるといいます。この例で言えば、ある広告が見られた延べ回数(インプレッション)が増えれば、その広告に接触するユニークな人数(リーチ)が増えるのは自然で、相関が高いのは常識的に考えても納得がいきます。
回帰線を使う理由とは?
さて、なぜこのような直線(場合によっては曲線でも構いません)を引くのでしょうか。図2をご覧ください。ある広告主が次に使える予算額から計算すると、この媒体では1億インプレッション相当だったとします。この場合、200万人くらいにはリーチできそうだと予測ができるわけです。つまり回帰線を引く理由は、予測のためです。だから回帰式は「Y=」となっているように、変数Xによって変動する結果を予測したいのです。
データ解析の1つの重要な役割は、予測です。精度の高い予測ができれば、無駄な出費や、サプライズ(良くも悪くも)が生じにくくなります。そのため過去のデータを蓄積して、このような基準値を作っていくことが、予測の精度を高めることにつながる訳です。
回帰線の間違った利用方法
図3は複数商品を取り扱っているあるサイトの例だとします。縦軸は1訪問当たりの閲覧ページ数で、横軸は1訪問当たりの総閲覧(滞在)時間です。各商品カテゴリーのWebページ群の閲覧データをそれぞれ別々に集計し、プロットしてあります。
このグラフを眺めていると、ある商品カテゴリーでは、イラストが多く、ページは多く見られるけど滞在時間は比較的短いとか、逆に文章が多く読ませるページの多い商品カテゴリーでは、見られているページの割には滞在時間が長いといった、コンテンツ(商品カテゴリー)別の特徴が分かってきます。つまりこのような2つの指標をプロットすることで、商品別の特徴というものが理解しやすくなっているという訳です。また逆に、仮説通りの特徴が出ているかどうかを確認するツールなります。
さて、図3にも回帰直線を引いておきましたが、これをあなただったらどう活用しますか? このケースでは各コンテンツの特徴把握や検証が目的なので、新しいコンテンツ作成前の予測に使うというのも変です。ですから全体平均を表す線としての意味はあっても、回帰式まで計算するのはまったく意味がありません。
新規コンテンツを作るのであれば、意味のない予測をするのではなく、リリース後に、新規コンテンツと近い作りのコンテンツがあれば、それと実際はどのくらいの違いがあり、なぜそうなってしまったのかなどといったことに頭を使うべきでしょう。
3つの指標を1つに表現するバブルチャート
最後にバブルチャートを紹介します。図4をご覧ください。これは散布図の一種ですが、プロットしてあるのが点ではなく、「バブル」というように大きさを持っています。つまり散布図が2つのデータ(縦軸と横軸)だけを表現しているのに対して、バブルチャートは3つのデータを3次元ではなく2次元で表現する手法と言えます。恐らくほとんどの人は2次元の紙や画面上に、立体感を伴った表示をした場合に、正しく理解できる能力はまだありません(もちろん私にもありません)。そういう意味でもバブルチャートは3次元のデータを2次元で表す優れた方法の一つといえます。
このチャートは複数のサイトの特徴を比較するために作成されたもので、縦軸が月間の一人当たりのページビュー数、横軸が一人当たりの利用頻度、バブルの大きさが月間利用者数を表したものです。
バブルチャートの問題点は、プロットした数が多くて、重なりが多くなると、表示が隠れて見にくくなることがあるという点と、円の大きさが直感的に相対比較が難しいという点があります。図4の例では、ある1つ以外はどんぐりの背比べという感じになっています。ですからあまり重要でない指標を、3つめのバブルの大きさの軸に持ってくるなどの工夫が必要となるでしょう。
まとめ
散布図は系列数が複数あるデータで、項目間あるいは指標間の関係性を見る場合に使います。両者に相関関係が認められる場合は、回帰線を引くことで、予測モデルを作ることができます。そのためデータを蓄積することで、予測の精度を高めることにつながります。
一方、プロットされた各データの特徴やポジショニングを確認するために散布図を利用することもできます。この場合は予測モデルではないので、回帰線や回帰式を作る意味はなく、狙い通りの結果になっているのか、他と相対的に位置づけがおかしくないかなどをチェックするツールとして使うことが多くなります。
バブルチャートは3つの指標を2次元で表現する手法で、得られる情報量も多くなります。一方でバブルの重なりが出てしまって一部隠れてしまったり、円の大きさが比較しにくいという難点もあります。
ソーシャルもやってます!