「統計思考」を武器にする! ビジネスパーソンが身につけておきたい基礎分析と実務活用イメージ
マーケターにとって強力な武器となる「データ分析」や「統計思考」。「デジタルマーケターズサミット 2023 Summer」では、『統計学の基礎から学ぶExcelデータ分析の全知識』(インプレス)の著者である株式会社リベルクラフト代表の三好大悟氏が登壇。
具体的なビジネス活用における実践法について、「広告効果測定」「Webの行動ログ解析」「A/Bテスト」を例に解説した。明日すぐに役立つ内容になっているので、ぜひ挑戦してみてほしい。
『統計学の基礎から学ぶExcelデータ分析の全知識』(著者:三好大悟 出版:インプレス)
テクノロジーの進化により、あらゆる業界でデータ/AI活用が可能に
ビジネスにおける「AI・データサイエンス」のゴールは、「ビジネスでのデータを活用し、そのビジネスの価値を高める営み」を指す。つまり、ビジネスのプロダクトやユーザーなどを中心にして、さまざまな現象や動きがあり、それをITでデジタル化する。そして、それらのデータを蓄積・加工し、活用することで、そのビジネスに“意味あるインパクト”を与えることが目的というわけだ。
ビジネスの価値向上とは「売上に関する指標の向上」「コストやリスクに関する指標の低減」などであり、営業やマーケティングの部門と同様に、自分たちの強みである「データを武器として活用する」ことで貢献しようとしているにほかならない。
そして近年、急速にデータやAI活用の重要性に注目が集まっている。三好氏はその背景として、「WebやIoT、画像センサーといった技術の発達により多種多様なデータが増えていること、そして、それらのデータを大量に蓄積し、高速処理できる技術が進化してきたことがある」と述べ、「その進化は加速的に進んでいるので、AI・データサイエンスの必要性はこれからも高まるのではないか」と予測した。
他にも、デジタル化によるデータの蓄積がしやすかったIT・ソフトウェア業界から、さまざまな業界でデータの取得と活用が進むと考えられる。
たとえば、IT・ソフトウェア業界におけるデータの活用例としては、以下の事例がある。
- ECサイトにおいて、ユーザーに最適な商品を推薦(レコメンド)し、購買金額を向上させる
- 広告出稿ビジネスにおいて、広告に興味を持ちそうなユーザーを特定し、コンバージョン率を向上させる
- 出品サイトにおいて、出品時の最適価格を提示し、売買のマッチング率を向上させる
一方で、IT・ソフトウェア以外の業界においても、以下の活用事例が出始めている。
- 小売業界で、ユーザーの店舗動向をデータ化して販売促進に活用する
- 物流・配送業界で、配送情報をデータ化して配送の効率化を図る
- 製造業界で、製品の画像情報をデータ化して不良検知を自動化する
つまり、あらゆる業界で、さまざまなデータを取得し、活用する契機が起こり始めているというわけだ。
営業やマーケティング、Webエンジニアといった職種と同様に、AIエンジニアやデータサイエンティストも、すべての業界、そして会社に配置されるべき職種になる(三好氏)
そうなれば、専門家である技術部門だけではなく、ビジネス側においても技術に関する基礎的な知見を有していることが望ましい。
企業やチームにおいて、AIやデータ活用施策を成功させるためには、『事業側は、事業課題を技術課題へ落とし込む』、『技術側は、事業やドメイン知識を理解したうえで、適切な技術提供を行う』という、双方向の知見習得・歩み寄りが有効。そのためにもそれぞれがそれぞれの領域の理解を深める必要がある(三好氏)
データ活用の基礎を掴んでおく
まず三好氏は、AI・データサイエンスのレベル感に合わせた技術手法をマッピングで紹介。「AI・データサイエンスの携わる領域は非常に幅広く、必要な場面に応じて使いこなす必要がある」と語る。
そのなかで、すべてのベースとなる「基礎分析」と「統計解析」については、マーケターも実務で身につけておくことが望ましい。データの抽出・加工・集計・可視化は、統計解析から機械学習まで、すべてのデータ活用の土台となる。そこで、データ集計や可視化の実務的な流れを構造化し、把握しておくことが大切だ。
その一歩として、データを適切に抽出できるようにしておくことが重要である。一般にイメージしやすいのは、Excelによるデータの加工・可視化だ。さらに複雑な分析・可視化の場合、PythonやRといった「プログラミング言語」やTableauなどの「BIツール」が必要になることもある。またPythonで処理したデータをExcelやBIツールで読み込んで活用するなど、双方向でデータをやりとりすることもあるだろう。
それらのツールによる分析結果は、現状の定量的な把握や、課題の仮説の抽出、施策立案のサポートに役立てられることになる。もちろんAIによる高度な技術開発の場合でも、データ加工やデータ理解のための集計・可視化は欠かせない。
データの可視化のコツと注意点
こうした基礎的なデータの集計や可視化においては、細かな読み解き方のコツや注意点などを意識する必要がある。たとえば、ある店舗の月ごとの売上客数をグラフで表すとき、一見順調そうに見えても、原点をゼロにした途端、差分がほとんど消えてしまう。「縦軸は基本的に0スタートとすべき」というのは当然とはいえ、意外と恣意的な分析結果で惑わされることは少なくない。
関係者への忖度や合意を取るため、こうした見せ方が有効と思われることもある。しかし、データを分析する者の基本的なスタンスとしては決して正しいことではないことを認識しておくべき(三好氏)
また、顧客アンケートの結果を集計・分析したときに、アンケートスコアが高いほど回答者数も多いとする。「顧客の満足度は全体的に高い」と判断しがちだが、そもそものアンケート回答者にバイアスが掛かっている可能性がある。つまり、満足度が高い人ほどアンケートに回答し、低い人ほど回答しない傾向があると考えれば、潜在的に満足していない顧客が一定いると考えられ、「顧客満足度が高い」とは断定できないというわけだ。
こうしたデータの状態は「サンプルバイアス」と呼ばれ、その可能性を意識しながら分析・理解することが必要となる。
母集団を意識するという点で、統計的思考力に近い。分析の際は、とにかくサンプルと母集団の関係性は重要になる。知識獲得はもちろん実務でも学びながら、本質的にデータや事象に注意を払って考えるというスタンスが大事(三好氏)
実践的な統計解析の活用事例
基礎分析から一歩進んで、統計解析は、過去のデータから傾向の読み解き、事象の関係性や因果関係の定量化、課題の仮説出しが可能になる。統計解析にはさまざまな分野があるが、主な領域として大きく3分野を紹介する。
その1つが「記述統計」と呼ばれるもので、データの集計や可視化とほぼ同じものだという。手元にあるサンプルデータから、平均値や中央値など統計量を算出し、分布を可視化することで適切にサンプルデータそのものを把握することが主な目的だ。
そして2つめは「推測統計」(または「推計統計」)と呼ばれ、サンプルデータだけでなく、データが取り出された母集団の傾向を適切に把握することを目的とする。そのために、確率分布や回帰モデルなど単なる集計や可視化だけにとどまらない統計的な手法を用いることが多い。
そして3つめが「時系列分析」。名前の通り、複雑な統計モデルと時系列データを用いて、時間軸の傾向を捉え、将来のデータの数値を予測するために使われる。
こうした統計解析の活用例として、次のような4つの事例が紹介された。
事例1 ECサイトの施策効果の検証→A/Bテスト
ECサイトなどで、検索エンジンやクリックボタンのようなUIを改善する際に、「A/Bテスト」では時系列での前後比較ではなく、2つ以上の施策を同時に実施し、どちらがよりKPI向上に寄与するのかを検証する。
具体的には、対象ユーザーを可能な限りランダムにA群とB群に振り分けて、片方の群に新しい施策、他方の群には従来の施策を打ち、それぞれの効果改善の因果関係を検出する。「仮説検定」という仮説を立てて検証する方法が一般的だ。
事例2 Webサイト上のビジュアルの効果検証→A/Bテスト
2008年のオバマ大統領の選挙活動中、自身の公式サイトでメインビジュアル6種類とCTAボタン4種類、合わせて24通りのA/Bテストを実施。“家族写真”と“Learn Moreボタン”が最適と判明し、登録率が約40%向上、約6,000万ドルの寄付金追加につながったといわれている。
事例3 出稿量に対する問い合わせ数の未来予測→回帰分析
問い合わせ数と出稿量の関係を調べるためには「回帰分析」という統計手法を用いる。ある広告出稿に対するKPI(問い合わせ数)の過去データから、「問い合わせ数=10+5×出稿量」という回帰式を導くことができたとする。
データの傾向を直線の数式で表したもので、これにのっとると未来の予測が可能になる。たとえば、来月の出稿量を360万円とすれば、回帰式から190件ほど問い合わせ数が期待できるというわけだ。
事例4 KPIに影響を与えている仮説を検証→重回帰分析
事例3は「出稿量」という1つの変数で回帰をする単回帰分析であったのに対し、複数の変数で相関関係を調査する「重回帰分析」というアプローチもある。
具体的には、アクセス解析のようなWebサイト上でのユーザーの行動ログデータを使用し、どのような変数が、CVなどのKPIに影響を与えているのか分析できる。たとえば「女性だとCV数が増えそう」「記事Aの効果が高い傾向にありそう」「年齢が若い方がCVにつながっていそう」という仮説を立てた場合、重回帰分析を行うことで、これらの仮説が正しいかどうかを検証できる。
予測精度を重視し、意思決定の自動化につなげたいとする『機械学習』に対し、『統計解析』はデータから過去や現状の事象を定量的に把握することに主眼が置かれる。データからの解釈を正しく行う、ということにモチベーションをおいており、業務やビジネスの参考情報をすることを意識してほしい(三好氏)
Excelでもできる! 統計分析の活用事例
こうした分析を最も手軽に行えるのが、Excelだろう。その使い方について、具体的な事例が紹介された。
事例1 売上情報の基本統計量を分析する
Excelの無料アドインツール「データ分析ツール」では、売上個数をヒストグラムとして可視化でき、平均値や標準偏差などの基本統計量を算出できる。これによって「売上個数なのにマイナスの値が入っていないか」「大きすぎて不適切なデータが混ざっていないか」「想定したデータになっているか」などの現状確認が可能だ。
こうしたデータの確認を怠ると、分析に異常値が含まれ誤った結果が出てしまう可能性がある。可視化や統計量の確認は面倒ながらも必ず行っておきたい。
事例2 クリック率のA/Bテスト結果を実施する
事例1のようなA/Bテストも、Excelで実施することが可能だ。A/Bテストの実施自体は既存のシステムやツールを使うことになるが、得られた結果のデータを用いてExcelでA/Bテストの検証ができる。たとえば、新旧のデザインについて離脱数やクリック数が得られ、この「2つのデザイン×2つの反応」を比較したところ、クリック率で1%と1.9%の差が算出された。ただし、数値の差分からは統計的有意差はわからず、「仮説検定」という統計理論に基づく計算を行う必要がある。
A/Bテストの場合は「カイ二乗検定」と呼ばれる検定方式が取られることが多いが、Excelで関数を使えば簡単に計算することができる。ここでp値と呼ばれる、有意差の是非を結論づける指標が計算されるが、その指標値が5%などの一定の閾値を下回っていれば、有意差があると結論づけられる。
この分析によって、「この差はたまたまでは?」「意味のある差はないのでは?」といった声があったとしても、「統計的に有意差があるので、デザイン変更の効果は一定量あったはず」といい切ることができる。もちろん、仮説検定を完全に信じ切ることはできないが、ひとつの指針として意味があると考えられる。
事例3 商品売上個数の要因分析を実施する
さまざまな変数が商品の売上個数にどのような影響を及ぼしているのか、商品ごとの売上個数データをExcelの分析ツール「回帰分析」を使用すると、重回帰分析を瞬時に実行してくれる。データの用意や結果の読み解き方に関しては、ある程度の事前知識が必要ながら、手軽にできる分析方法として覚えておくとよいだろう。
結果の読み解き方としては、以下が挙げられる。
- 占有率が1%上がると、売上個数が44.5個増加する
- 商品単価が1円上がると、売上個数が0.15個減少する
- アルコール類だと、売上個数が5.5個増加する……
それらを踏まえて「どの商品をどの割合で売場に置くか」「各商品をどのような単価に設定するか」など、施策の精度向上につなげていく。
Pythonを使った分析事例も紹介
セッションの最後には、Pythonを使ったデータ活用事例を紹介。Pythonは、データ解析やAI開発でよく利用され、使いこなせれば、より高度な分析・統計解析・AI(機械学習)アルゴリズム開発などができるようになる。たとえば、「ヒストグラムの描画」「複雑な相関分析」「より高度なモデリング分析」などが可能だ。Excelでは手が届かないレベルの分析ができるので、データ活用の幅が広がるのは間違いない。
2023年8月に発表された「Python in Excel」のように、今後プログラミングせずともExcelの操作でPythonが使えるようになり、ChatGPTでPythonによる実装が容易になってくる未来も見えてくる。興味がある方は、ぜひそれぞれ触れてみてはいかがだろうか。
最後に三好氏は、以下の言葉で締めくくった。
データ分析は、データを活用しビジネスの価値を高めることができる。そのためには、事業部門と技術部門が共通した言語や知識をもつことが有効。特に専門家ではなくとも近年は実務で活用できる技術が進化しており、たとえばExcelで分析や可視化を行うことも可能。ぜひ、実務で活用してほしい(三好氏)
ソーシャルもやってます!