【データ分析時短ワザ】仕事を楽にする事前準備6つとデータ整理に使えるExcel術
マーケターのみなさんは、
- データ分析を始めたいけれど、何から手をつけていいのかわからない
- マーケティングに関連する大量のデータを扱う際、データの整理作業が煩雑で時間がかかるデータの要不要、優先順位をつける基準がわからない
といったお悩みを抱えているのではないでしょうか? 実は、事前準備がデータ分析の成否を分けます!
データ分析の前にやるべき6ステップ
データ分析において「何から手をつければ良いかわからない」「優先順位をつけられない」と悩んだときは、基本に立ち返って1つずつステップを踏んでいきましょう。具体例を使って、データ分析の前にやるべき6つのステップを説明します。
事前準備①目的を決める
分析の目的によって、分析対象のデータや分析手法は大きく変わります。そのため、まずは“なぜデータ分析をするのか”という目的を明確にすることが重要です。目的は意外と忘れがちになってしまうことが多いのではないでしょうか? 目的が不明瞭だと何をすれば良いのか迷ってしまう原因になるので、しっかり見直しましょう。
今回の具体例では目的を以下に設定します。
目的(何を達成したいのか)
ランディングページからリードを取りたい
事前準備②解決すべき課題を特定する
次に、データ分析の目的が明確になったら、目的を達成するために解決すべき課題を特定します。
課題(何を解決したいのか)
ランディングページのセッション数が下がっていること
事前準備③仮説を立てる
課題が明確になったら、その課題を引き起こしている要因を推測し、仮説を立てます。仮説を立てたら、“その仮説を実証したらどのような分析結果が出るか”まで考えておきましょう。
データ分析では、分析によって確かめたい仮説作りが重要です。仮説なしでやみくもに分析をしても、良い結果は得られません。仮説を立てることで、分析の方針が固まり、無駄な作業を省くこともできます。
また、自身の経験が仮説の範囲を狭めてしまったり、仮説の矛盾に気づかないまま進めてしまったりするケースがよくあります。仮説の精度を高めるために、チームメンバーや組織外の人と意見交換を行いましょう。
仮説(課題を引き起こす要因は何か)
ランディングページのセッション数が少ない要因は、テレビCMとWEB広告を辞めたことで、それぞれの影響は6割と2割くらいだろう
事前準備④データを集める
目的・課題・仮説まで進んだら、仮説の実証に必要なデータを集めます。データを集める際には、“先程立てた仮説を実証するために必要なデータは何か”という視点で考えます。このとき、収集できそうなデータを全て集めようとしないでください。
データを収集する前に、課題である「ランディングページのセッション数が下がっていること」を構成する要素を洗い出し、課題→KPI→要因の順番で構造化していきます。データの構造を図式化すると、今の分析で解消したい課題に紐づく要素のデータが洗い出せます。これらのデータに絞って集めることで、効率的で抜け漏れの少ない分析ができます。
データ分析の目的とデータ収集の手間を照らし合わせながら、データを選別しましょう。Google アナリティクスのデータのように、ダウンロードしてすぐに分析に使えるものもあれば、フォーマットが統一されておらず、社内の複数ファイルに点在しているデータのように収集に工数がかかるものもあります。大して重要ではないデータを集めるために時間をかけ過ぎないよう、注意しましょう。
たとえば以下のようなデータを集めます。
ランディングページのセッション数:Google アナリティクスで収集
ランディングページのセッション数に、影響を与えたと思われる施策(この場合はテレビCMとWEB広告)のデータ:該当期間のGRP(延べ視聴率)、インプレッション数
ランディングページのコンバージョン数:Google アナリティクスで収集
事前準備⑤データを整理する
データを集めたら、まずはそれらのデータを抜け漏れやダブりがないように整理します。集めたデータを未加工で分析することはおすすめできません。なぜなら、不要なデータが混ざり、分析の精度が落ちる可能性があるからです。
たとえば、以下のように整理します。
【ランディングページのセッション数のデータを整理する場合】
分析したい期間を定義し、それ以外の期間のデータを取り除く
週次・月次などデータの粒度を決めて揃える
抜け漏れ重複などのデータミスがないか確認する
必要に応じて単位なども揃える
表計算ソフトExcelには、データの整理に適した様々な機能があります。その中でも特に知っておくと便利な機能を紹介します。
Excelテクニック1. フィルターをつける
まず、フィルターを使ってみましょう。今回は偶数月のみを表示するフィルターをつけてみます。
- フィルターをかけたい項目を選択する
- ホーム>編集>並べ替えとフィルター>フィルターをクリック
- ▼のボタン>フィルターしたいものを選択(写真は偶数月のみ選択)>「OKをクリック」
Excelテクニック2. 重複データに色をつける
次は、データの重複がわかるように、重複する値を赤で表示されるようにしてみましょう。
- ホーム>スタイル>条件付き書式>重複する値を選択
- 「次の値を含むセルを書式設定:」で書式を選択>OKをクリック
Excelテクニック3. 小数点以下の桁数を変更する
データを見やすくするために小数点以下の桁数を変更してみましょう。
- 桁数を変更したいデータを選択する
- ホーム>数値>小数点以下の桁数を減らす場合は「.00→.0」、小数点以下の桁数を増やす場合は「←.0 .00」をクリック
【データ整理の時に使える便利な関数】
不要なスペースを削除する関数
=TRIM(範囲)改行を削除する関数
=CLEAN(文字列)ばらばらの日付を統一する関数
=DATE(年,月,日)ばらばらの時間を統一する関数
=TIME(時, 分, 秒)
事前準備⑥探索的データ分析(EDA)を行う
集めたデータを使って、仮説を実証するための分析を行います。複雑な分析を行う前に、まずは探索的データ分析(EDA)を行いましょう。探索的データ分析(EDA)とは、データの特徴をわかりやすくするための手法です。グラフなどを用いてデータを可視化することも、探索的データ分析(EDA)に含まれます。
具体的には、どこで数値が下がっているのか、どこで上がっているのか、まずはデータを並べてみましょう。さらに、フィルター機能を使って、期間ごとや属性ごとの傾向をみましょう。このような手法を、統計学では、探索的データ分析(EDA)といいます。
マーケターがよく使う分析手法は、クロス集計・単回帰分析・重回帰分析など多数存在します。しかし、データ分析の初心者は複雑な分析に手を出す前に、データの傾向を洗い出すことから始めるとよいでしょう。
【探索的データ分析(EDA)を行う際に何を見るべきか?】
- 特徴的な値(ハズレ値など)
- 値の上ブレ・下ブレ
- 基本統計量(最大値、最小値、平均値、中央値、最頻値、範囲など)
探索的データ分析(EDA)を行う際には、図やグラフを使い、データを可視化しましょう。数値を目視して、データの傾向を掴むのは難しいため、図やグラフを用いて、データを可視化することで、数値の比較がしやすくなり、より問題の本質を捉えることができるようになります。
たとえば、「ランディングページのセッション数の月次推移」を見てみましょう。数値データだけで判断するのは難しいですが、折れ線グラフを作ることで、月次推移がわかりやすくなります。
探索的データ分析(EDA)で、基本統計量を洗い出す際には、Excelのアドインを利用しましょう。
- ファイル>オプションを選択
- Excelのオプション>アドインを選択>設定をクリック
- 分析ツールを選択>OKをクリック
- データ>データ分析をクリック
- 基本統計量を選択>OKをクリック
- 分析したいデータを選択>OKをクリック
このように難しい分析を始める前に、必ずデータからわかることを読み取るようにします。その結果、はじめに立てた仮説の間違いに気がつくこともあります。
たとえば、今回の例では仮説に対して探索的データ分析(EDA)の結果から以下が推定できます。
仮説
ランディングページのセッション数が少ない要因は、テレビCMとWEB広告を辞めたことで、それぞれの影響は6割と2割くらいだろう
探索的データ分析(EDA)の結果からの推定
テレビCMやWEB広告よりも気温のほうが、セッション数の低下に与えている影響が大きそう
仮説に対して、探索的データ分析(EDA)で推定できたことにズレがあった場合、仮説を立て直して、必要なデータを集めなおしましょう。
【仮説の間違いに気がついた時、新たな仮説を立てる方法】
- “どういう目的で分析をしたのか” “特定した課題は何だったか”を再度確認する
- 最初に立てた仮説とは別の因果関係をもとに、新たな仮説を立て直す
- 新たな仮説を立証するデータを集めて整理し、データ分析を進める
まとめ
データ分析を行う際には、難しい分析をしようとする前にまず目的・課題・仮説を明確にした上で、データを集めて整理し、データの大まかな傾向を掴むことを意識してみてください。
ソーシャルもやってます!