グーグルのクラウドを支えるテクノロジー > 第10回 「MillWheel」から学ぶストリーミング処理の基礎
- 編集部の見解や意向と異なる内容の場合があります
- 編集部は内容について正確性を保証できません
- 画像が表示されない場合、編集部では対応できません
- 内容の追加・修正も編集部では対応できません
CTC教育サービスはコラム「グーグルのクラウドを支えるテクノロジー > 第10回 「MillWheel」から学ぶストリーミング処理の基礎 」を公開しました。
第10回 「MillWheel」から学ぶストリーミング処理の基礎 (中井悦司) 2017年2月
はじめに
今回は、2013年に公開された論文「MillWheel: Fault-Tolerant Stream Processing at Internet Scale」をもとにして、ストリーミング処理に対応したデータ処理基盤「MillWheel」を紹介します。
前回も触れたように、Google Cloud Platform(GCP)では、バッチ処理とストリーミング処理を統合した分散データ処理サービスとして、Cloud Dataflowが提供されています。Cloud Dataflowと比較すると、MillWheelの機能はシンプルで限定的になりますが、「バッチ処理の拡張としてストリーミング処理を捉える」という発想は共通しています。今回は、MillWheelの仕組みを通して、ストリーミング処理を設計する際の基礎となる考え方を学びましょう。
MillWheelの利用例
先ほどの論文では、GoogleにおけるMillWheelの利用例として、「Hot Trendsサービス」が紹介されています。これは、Googleの検索サービスに入力された検索キーワードの中で、現在、最も人気の高い(入力数の多い)キーワードをリアルタイムに表示するもので、システムの全体像は、図1のようになります。
この続きは以下をご覧ください
http://www.school.ctc-g.co.jp/columns/nakai2/nakai210.html
ソーシャルもやってます!