グーグルのクラウドを支えるテクノロジー > 第10回 「MillWheel」から学ぶストリーミング処理の基礎

2017年2月10日 17:21

※この記事は読者によって投稿されたユーザー投稿のため、編集部の見解や意向と異なる場合があります。
また、編集部はこの内容について正確性を保証できません。

CTC教育サービスはコラム「グーグルのクラウドを支えるテクノロジー > 第10回 「MillWheel」から学ぶストリーミング処理の基礎 」を公開しました。

第10回 「MillWheel」から学ぶストリーミング処理の基礎 (中井悦司) 2017年2月

はじめに

 今回は、2013年に公開された論文「MillWheel: Fault-Tolerant Stream Processing at Internet Scale」をもとにして、ストリーミング処理に対応したデータ処理基盤「MillWheel」を紹介します。

 前回も触れたように、Google Cloud Platform(GCP)では、バッチ処理とストリーミング処理を統合した分散データ処理サービスとして、Cloud Dataflowが提供されています。Cloud Dataflowと比較すると、MillWheelの機能はシンプルで限定的になりますが、「バッチ処理の拡張としてストリーミング処理を捉える」という発想は共通しています。今回は、MillWheelの仕組みを通して、ストリーミング処理を設計する際の基礎となる考え方を学びましょう。

MillWheelの利用例

 先ほどの論文では、GoogleにおけるMillWheelの利用例として、「Hot Trendsサービス」が紹介されています。これは、Googleの検索サービスに入力された検索キーワードの中で、現在、最も人気の高い(入力数の多い)キーワードをリアルタイムに表示するもので、システムの全体像は、図1のようになります。

この続きは以下をご覧ください

http://www.school.ctc-g.co.jp/columns/nakai2/nakai210.html

この記事のキーワード

この記事をシェアしてほしいパン!

人気記事トップ10

人気記事ランキングをもっと見る