グーグルのクラウドを支えるテクノロジー　＞　第70回　機械学習パイプラインにおける学習データの異常検知システム（パート1）

2019年11月15日 20:39

※この記事は読者によって投稿されたユーザー投稿のため、編集部の見解や意向と異なる場合があります。
また、編集部はこの内容について正確性を保証できません。

CTC教育サービスはコラム「グーグルのクラウドを支えるテクノロジー　＞　第70回　機械学習パイプラインにおける学習データの異常検知システム（パート1）」を公開しました。

＃＃＃

はじめに
　今回からは、2019年に公開された論文「Data Validation for Machine Learning」を元にして、機械学習モデルの学習データに含まれる異常を検知するシステムについて解説します。このシステムは、機械学習を利用するGoogle社内のプロジェクトで標準的に利用されているもので、機械学習パイプラインを構築するためのオープンソースであるTFXを用いて構築されています。

機械学習パイプラインとは？

　第67回からのシリーズで取り上げたFederated Learningでは、モバイルデバイス上のデータを用いて、キーワード予測の機械学習モデルを学習する仕組みを説明しました。そこでは、新たなデータを用いて、日々、継続的にモデルの学習を行う仕組みが用意されていました。OCR（文字認識システム）のように、学習データが固定的なユースケースであれば、モデルの学習を繰り返す必要はありませんが、Webで提供されるサービスのように、利用者の行動に合わせて進化すべき領域では、Federated Laerning以外の一般的な機械学習システムであっても、このような継続的な学習は重要になります。一般に、「学習データの収集 → モデルの再学習 → 再学習済みのモデルによる予測」といった一連の処理を自動化して、これを継続的に実行するシステムを機械学習パイプラインと呼びます。

この続きは以下をご覧ください
https://www.school.ctc-g.co.jp/columns/nakai2/nakai270.html

この記事のキーワード：

この記事をシェアしてほしいパン！