機械学習によるECサイトの解約防止を図った産学連携のデータサイエンス実践
ECサイトの解約を防止するにはどんな施策が効果的なのか、機械学習アルゴリズムが的確に判断してくれる――そんなことが実現できたら、Web担当者にとってどれだけありがたいことだろう。ソフトバンク・テクノロジーは、東京理科大学との産学連携プロジェクトを立ち上げ、実務上の課題をテクノロジーで解決する、“データサイエンスの実践”に取り組んだ。
高度化する“データサイエンス”
マーケティング分野において、ビッグデータの分析・活用は当たり前になりつつある。しかし、精度の高い分析を行うには高度なノウハウと技術力が必要なため、そこにハードルを感じる企業も多い。ソフトバンク・テクノロジーは、東京理科大学との産学連携プロジェクトによって実現した高度なデータサイエンスを自社のクラウドサービスに乗せ、一般企業向けのデータ分析支援サービスとして提供している。同社 イービジネスサービス事業部 Webインテリジェンス本部 データサイエンス部の江原圭司氏は、同社のユーザー会の中で、産学連携プロジェクトの概要と、データサイエンスの実務への適用事例を紹介した。
はじめに、データサイエンスとは、データに関する研究を行う学問であり、実務に使われ始めたのは、リレーショナルデータベースが普及し始めた1990年代である。当時は、「ビールを買う人は、同時に紙おむつを買う傾向がある」といった相関分析が主流だった。その後、90年代後半以降のWebとECサイトの普及に伴い、「この商品を買った人には、これもお勧め」という、レコメンデーションエンジンで使われる協調フィルタリングが登場した。
近年は、ビッグデータ分析の担い手として、「データサイエンティスト」が注目を集めつつある。特にWebマーケティング業界では、アクセス解析や広告のアトリビューション分析、A/Bテストなどで統計学的な知見を使いつつ、各種のログデータ解析をする人間を指す言葉として定着しつつある。2013年5月には、一般社団法人データサイエンティスト協会も設立された。
データサイエンティストという言葉のイメージは、時代によって変遷した。かつては、高度な数学を駆使し、CやFortranと言ったプログラミング言語での分析を自前で行う人をデータサイエンティストと呼んだ。最近では、分析ツールやフリーの計算ライブラリが世の中に出回り、これらのツールを駆使して分析を行うことがデータサイエンティストの役割になった。かつてに比べれば負担は減ったが、統計の知識やモデルの選択眼は必要である。
今後、ビッグデータの普及に伴い、さらに多くの人材がデータサイエンス分野に参入すると考えられます。これまでWeb解析、画像解析、地理データ解析、金融工学などのさまざまな分野で発展してきたデータサイエンス技術が融合し、より高い精度が追求されていくでしょう。たとえば、Web広告のアトリビューション分析は、金融分野での投資のパフォーマンス分析が源流になっています。このように、データサイエンスの高度化が進むでしょう(江原氏)
産学連携により、実務上の課題をテクノロジーで解決
データサイエンスの高度化に、ソフトバンク・テクノロジーはすでに足を踏み入れている。その具体的な事例が、東京理科大学との産学連携プロジェクトである。このプロジェクトが始まった背景には以下のようなものがあった。
EC本部の課題
ソフトバンク・テクノロジーのEC本部では、ある大規模ECサイトのBPO(Business Process Outsourcing)を請け負っている。そのサイトはユーザーが1年ごとに定期更新する形のサイトであり、定期更新時の解約を防止するために、A/Bテストを年間で150回以上行っていた。そこに新しい視点が必要なのではないかと感じていた。
WI本部の研究検証
ソフトバンク・テクノロジーの研究開発部門であるWebインテリジェンス本部(WI本部)では、東京理科大学と共同でWebデータ解析の研究を行っており、その成果を実データで確かめたいという思いがあった。
こうした流れから、2つの部署が共同でプロジェクトを立ち上げることになったのである。データからパターンを抽出する「機械学習技術」という研究成果を、ECサイトの解約防止に繋げるというプロジェクトだ。もちろん、共同研究を行っている東京理科大学から見ても、実際のデータを使うことで研究成果の検証に役立つというメリットがある。
プロジェクトの役割分担としては、機械学習のアルゴリズム開発などのような、企業が定常的に人員を割き続けることが難しい基礎的な研究を大学が行い、ソフトバンク・テクノロジーは、ITのインテグレーションや、10年を超えるECサイトのBPOノウハウを基にした実務遂行を担う形になる。
両者の力を結集することで、実務上の課題をテクノロジーで解決することが可能になるほか、課題解決後も、ソフトバンク・テクノロジーはアカデミアの高度な研究成果を吸収することができ、大学側は実務的な課題に触れることで新たな研究対象を創造・発見することができる。お互いにとってプラスのフィードバックが得られるというわけだ。
機械学習アルゴリズムのモデルに“決定木”を選択
解約予測に使うモデルとして候補になったのは、以下の3つだ。
- Decision Tree C4.5
- 分類問題で用いられる代表的な機械学習手法。アウトプットの解釈が容易。
- 標準化等のデータの前処理があまり必要ない。他の機械学習に比べて少ない計算時間で、一定の正答率が得られる。
- Support Vector Machine
- 非線形判別も可能なパターン認識手法。
- 判別の過程がブラックボックスになるのが難点。
- Deep Learning Neural Network
- 研究途上の技術ではあるが、近年注目されている、高精度のニューラルネットワーク。
- 大規模な計算資源を必要とするのと、判別の過程がブラックボックスになるのが難点。
「解釈のしやすさ」、「施策対象の抽出のしやすさ」、「精度」の3つのバランスを見ながら検討した結果、最終的に「Decision Tree C4.5」が選択された。いわゆるツリー型構造の論理組み立てで、日本語では「決定木」と言われるものである。同モデルの離反予測正答率は十分な高さであり、かつ、実務に生かすためには実務家が結果を解釈しやすいものである必要があるため、「アウトプットの解釈が容易である点」が大きな決め手となった。
ソフトバンク・テクノロジーでは、この決定木モデルを利用し、前述したECサイトにおいて、施策と効果検証を行っている。
検証結果は現在集計中だ。江原氏は、「このプロジェクトの成果物は、アルゴリズムと数理モデルであり、汎用性が高いため、異なる問題にも適用できる」と語る。解約顧客予測の他にも、例えば、ECサイトの休眠会員の再活性化、紙媒体でのダイレクトメールのレスポンス分析などさまざまな問題に対応できる。ソフトバンク・テクノロジーでは、カスタマイズを行って、広範な用途に利用できるサービスを準備中だ。
データサイエンスは、高度化から自動化へ
講演の冒頭で江原氏は、データサイエンスの未来として「高度化」を挙げた。しかし、江原氏とソフトバンク・テクノロジーは、さらにその先の未来を見据えている。それは、データサイエンスの「自動化」である。
前項で、データサイエンスの高度化の実例としての産学連携プロジェクトを紹介したが、こうした高度化には、下記のようなメリットとハードルが存在する。
- メリット
- 先端のアルゴリズムを利用可能
- ユーザーの環境に合わせて、細かくカスタマイズとチューニングが可能
- モデルも選択可能
- ハードル
- 機械学習の中身への理解が必要
- パラメータ設定などのチューニングが必要
- 結果を視覚化できるデータ処理能力が必要
特にハードルの部分は一般の企業にとっては相当の難易度と言える。そもそも企業の目的は、“高度な数理モデルやスーパーコンピュータを使いこなしてデータ分析をすること”ではなく、“データからビジネスに役立つアウトプットを簡単に手に入れること”だ。当然、大規模システムのための投資やメンテナンスは避けたいことだろう。そこでソフトバンク・テクノロジーが提供するのが、「SBT Cloud Data Science Service」である。
同サービスを利用する際には、以下のフェーズを経ることになる。
- データクレンジング
自社保有データを洗い出し、分析用にデータを整備するフェーズ。 - モデル調査・開発
分析に使うモデルを調査し、実装するフェーズ。 - チューニング
パラメータの設定や特徴のある変数の絞り込みを行うチューニングフェーズ。 - 解釈・適用
アウトプットの解釈を行い、施策に適用するフェーズ。
これら4つのフェーズのうち、ユーザー企業が実行する必要があるのはフェーズ1とフェーズ4のみとなる。フェーズ2とフェーズ3はソフトバンク・テクノロジーの担当となり、同社のデータサイエンティストのノウハウが活用されるため、ユーザー企業がそのプロセスを意識する必要はない。ユーザー企業は、データクレンジングを行った後、ソフトバンク・テクノロジーのクラウド環境にデータをアップロードするだけでいい。その後、ソフトバンク・テクノロジー側がモデルの選定とチューニングを施して、結果をユーザー企業へ返すのである。また、必要に応じて、フェーズ1とフェーズ4についてもソフトバンク・テクノロジー側がコンサルティングサービスを行う。これこそが、データサイエンスの自動化への第一歩だと言えるだろう。
ソフトバンク・テクノロジーでは、ECサイトのWebログ蓄積や施策実施は「SIGNALコンサルティングチーム」が、大規模データの分析と基盤構築を「ビジネスインテリジェンスチーム」「Hadoopチーム」が担い、さらなる分析と予測精度の向上に「データサイエンティストチーム(場合によっては産学連携も)」が取り組むという三位一体の体制により、こうした高度なサービスを実現したのだ。
とはいえ、分析に利用するデータには、顧客情報をはじめとした機密性の高い情報が含まれることもある。クラウドにデータをアップロードするのは抵抗があるという企業も多いだろう。そこで、ソフトバンク・テクノロジーがセキュアな環境をユーザーに提供するために開設したのが「データサイエンスセンター」だ。データサイエンスセンターは、堅牢なセキュリティ環境の下で、Hadoopエンジニア、コンサルタント、データサイエンティストなどの専門スタッフが、企業ごとのニーズに即した分析支援を可能にする場所である。
江原氏は「ソフトバンク・テクノロジーでは、お客様が安心して頂ける環境の下で、ビッグデータの活用によるさらなる付加価値の追求を支援させていただきます」と講演を締めくくった。
ソフトバンク・テクノロジー
https://www.softbanktech.jp/
ソーシャルもやってます!