グーグルのクラウドを支えるテクノロジー > 第11回 「Cloud Dataflow」が実現するストリーミング処理の設計パターン

※この記事は読者によって投稿されたユーザー投稿です:
  • 編集部の見解や意向と異なる内容の場合があります
  • 編集部は内容について正確性を保証できません
  • 画像が表示されない場合、編集部では対応できません
  • 内容の追加・修正も編集部では対応できません

CTC教育サービスはコラム「グーグルのクラウドを支えるテクノロジー > 第11回 「Cloud Dataflow」が実現するストリーミング処理の設計パターン 」を公開しました。

はじめに
 今回は、2015年に公開された論文「The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing」をもとにして、Cloud Dataflowによるストリーミング処理の設計パターンを学びます。

サンプルデータの見方
 前回、MillWheelの解説の中で、ストリーミング処理では「データ処理の区切り」を設定する必要がある事を説明しました。Cloud Dataflowは、FlumeJavaのバッチ処理プログラミングモデルに、データ処理の区切りを設定する機能を追加することで、ストリーミング処理にも対応できるように機能拡張したものと考えることができます。

 冒頭の論文では、図1のサンプルデータに対して、さまざまなデータ処理の区切りを設定する例が紹介されています。まずは、このサンプルデータの見方を説明しておきましょう。

この続きは以下をご覧ください
http://www.school.ctc-g.co.jp/columns/nakai2/nakai211.html

この記事が役に立ったらシェア!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

PDCA
「PDCA」は、Plan→Do→Check→Actionのループの略。 ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]