Ledge.ai出張所 Ledge.ai出張所

非構造化データは「宝の山」! 構造化しAI活用するにはどうすればいい? DATAFLUCTとFastLabelの場合

画像、文書、音声、PDFなど、開いてみないと中身が何であるかわからない「非構造化データ」は、なぜ急速に注目されることになったのか。
DATAFLUCTとFastLabel

画像、文書、音声などの「非構造化データ」が注目を集めている。企業の経営に役立つ情報や業務の現場に関する膨大なデータが含まれ、これを活用することで、ナレッジの共有や業務効率化が大きく進むと考えられる。企業のノウハウや歴史がつまった、まさに「宝の山」。

一方で、活用できるような形に構造化するのが難しいという課題も……。

そんな非構造化データの現在とこれからの活用について、非構造化データの構造化に強みを持つデータプラットフォーム「AirLake(エアーレイク)を提供する株式会社DATAFLUCTの石田和也氏、DATAFLUCTと協業しアノテーション付与を担うFastLabel株式会社の鈴木健史氏にお話を伺った。

株式会社DATAFLUCT(データフラクト)データビジネス事業本部 データプラットフォームユニット 石田和也氏

DATAFLUCT石田和也氏

石田 和也(いしだ かずや)

1986年生まれ。兵庫県出身。関西大学総合情報学部卒業。新卒で独立系の大手SIerに入社。主に金融機関や決済事業のシステム開発、保守に従事。新規事業開発にも携わり、BtoB向けのSoE基盤・API基盤などのプラットフォーム構築を数多く手がける。システム企画からアプリケーション作成、クラウド構築、セキュリティ設計と幅広い経験を持つ。2021年、DATAFLUCTに入社。

株式会社DATAFLUCT https://datafluct.com/

FastLabel(ファストラベル)株式会社 取締役 鈴木健史氏

 FastLabelの鈴木健史氏
鈴木 健史(すずき たけし)

早稲田大学大学院創造理工研究科修了。在学中、国内外4つの学会にて研究発表、査読付き論文採択を経験。大手ERPベンダーで、会計SaaS立ち上げや複数のAIプロジェクトを経験後、法人向けフードデリバリー企業を共同創業。その後、独立し、2020年、FastLabelを創業。

FastLabel株式会社 https://fastlabel.ai/

非構造化データとはなにか。注目される背景とは?

DATAFLUCT石田和也氏

──まずは「非構造化データ」についてお教えください。どういったデータのことを指すのでしょうか?

石田氏:「非構造化データ」とは、画像、文書、音声、PDFなど、開いてみないと中身が何であるかわからないようなデータを指しています。一方の構造化データとは、CSVなどExcelで扱えるような表形式のデータのこと。前者はそのままではデータとして活用するのが難しく、後者はすぐにデータ活用することが可能です。ですから、これまでは、扱いやすい後者のデータがDXの文脈で大いに活用されてきました。

非構造化データの代表的な8種類非構造化データの代表的な8種類 画像提供:DATAFLUCT

──非構造化データは、ここ2~3年で注目を集めるようになったと聞きました。なぜ急速に注目されることになったのでしょうか。

石田氏:もっとも大きな理由は、DXが浸透してきたことではないかと思います。多くの企業で当たり前のようにデータ活用されるようになり、その有用性や効果が認識されるようになってきました。これに伴い、「もっとデータを活用したい」「現場に近い情報を生かして、より質の高いデータ活用を進めたい」と考える企業が増えてきた。それで、これまで活用されることが少なかった非構造化データに光が当たるようになったのだと思います。

また、ここ数年でIoTデバイスが爆発的に増え、非構造化データそのものが増えたということも影響しているでしょう。工場などに配置されたカメラや、ドローンによる撮影映像、電話オペレーターの対応音声、テレマティクス(※)の記録など、あらゆる非構造化データが、IoTデバイスによって集められるようになりました。これを手つかずのまま放置しておくのはもったいない、ぜひ活用したいと考えるのは、ごく自然な流れだと思います。

※カーナビやGPS機能を搭載した機器などの移動体通信システムを利用して提供するサービス

FastLabelの鈴木健史氏

鈴木氏:あとは、ディープラーニングですよね。10年ぐらい前から世界各国のエンジニアが研究するようになって、人や車などさまざまなものを検出するモデルが開発されてきました。これらの技術が成熟してきて、最近ではシステムにデータを放り込めば、自動で必要なものが検出されるサービスも一般的になってきています。単純に非構造化データが増えただけではなくて、非構造化データを活用する環境が整ってきた、受け入れる基盤ができてきたというのも、機運の高まりにつながっているように思います。

非構造化データの構造化には手間とコストがかかる?

DATAFLUCT石田和也氏とFastLabel鈴木健史氏

──非構造化データの活用を進めるに当たっての課題やポイントはありますか? ネックになっている部分は?

石田氏:最大のネックは、非構造化データの構造化です。画像、文書、音声などを読み解いて構造化データに変換するには、多大な労力とコストがかかります。これまでは、データサイエンティストがとにかく時間をかけてデータを読み解き、AIと組み合わせて活用するためにアノテーションや教師データの作成を行っていたのですが、それだけで数千万円というコストがかかることも少なくありませんでした。

鈴木氏:私もかつては、とあるERPシステムのエンジニアとして、ひたすら膨大な量の伝票の様式を読み解き構造化するという作業をやっていたことがありました……。ほかにもよく聞くのが、カメラの映像を見て、そこに人が何人いて、どんな行動をとっているかなどを人力で読み解いて構造化しているという話。こうした作業には膨大な時間がかかりますし、そもそももとになるデータ量が増えてきた最近では、物理的に人力で非構造化データを構造化するのはかなり難しいと感じることも増えてきました。

構造化データと非構造化データの比較画像提供:DATAFLUCT

石田氏:よく、「企業の売上の1%がIT投資に回され、さらにそのうちの数%がDXに使われる」と言われるのですが、これを考えると、非構造化データのデータ活用は、結局、資本力のある一握りの大企業しかできないということになってしまう。「だったら安価なパブリッククラウドを使えばいいんじゃないか」と考える方も多いと思うのですが、パブリッククラウドのAIサービスは従量課金であることが多く、累積すると結局コストがかかってしまう、精度がイマイチであることが多い、などの課題もありました。

こうした課題を解決するため、私たちDATAFLUCTが考えたのが、非構造化データの構造化を自動で行うソリューションです。協業するFastLabelさんの自動アノテーションプラットフォームと連携したことで、より早く、簡単に、質の高い教師データを作ることができるようになりました。これまで「一部の大企業だけのもの」「膨大な労力とコストがかかるもの」だった非構造化データの活用を、より多くの企業に採り入れていただきたい、データの民主化を進めたい、そんな思いで、構造化機能を搭載したデータプラットフォームを開発・提供しています。

非構造化データの構造化ソリューション「AirLike」とは

DATAFLUCTが提供するデータプラットフォーム「AirLake」画像提供:DATAFLUCT

──DATAFLUCTが提供するデータプラットフォーム「AirLake」についてお教えください。

石田氏:AirLakeは、社内外の多種多様なデータを収集し、非構造化データを構造化して格納できるデータレイク/データウェアハウスです。非構造化データの収集、分析、アノテーション付与、加工、蓄積などが自動でできるようになっており、さまざまな社内システム、データ分析ツールと連携してデータ活用まで提供できるような仕組みになっています。

AirLakeの特長のひとつが、PaaS提供になっている点で、一からデータ基盤を構築する必要はありません。データ活用基盤は構築するのが大変です。さまざまな機能を複雑に組み合わせ、さらにエラーやトラブルがないよう調整を重ねなければならず、多大な予算を投じてSIerに委託するということも多いと思います。ところがAirLakeなら、基盤はすでに構築されているわけですから、イニシャルコスト(初期費用)をかけることなく、すぐにシステムが使えます。

また、ビジネスユーザーでも使えるよう、極力簡単な操作にしているところもポイントです。基本的にはマウス操作で動かせるようになっており、従来のデータ活用システムのような複雑さは感じられないのではないかと思います。ほかに、位置情報、気象情報などのオープンデータを蓄積して連携させることができる点も特長のひとつ。使い勝手のよいPaaS型のデータレイク/データウェアハウスです。

AirLakeにFastLabelのサービスを連携するイメージ図AirLakeにFastLabelのサービスを連携することで、アノテーション作業が効率化され、より迅速に「非構造化データの構造化」を実施できる。画像提供:DATAFLUCT

──AirLakeの中のアノテーション付与の部分を、FastLabelが担っているんですよね。FastLabelのサービスには、どのような強みがあるのでしょうか?

鈴木氏:強みは、自動でアノテーションを行うプラットフォームを持っているというところです。おそらく、こうしたテクノロジーやプラットフォームを持っている会社は国内でまだ数社だと思います。データサイエンティストやAIエンジニアが自動化のためのプログラムを実装・実行することなく、ツール上でノーコードで自動アノテーション付与ができるため、スピーディーかつ安価です。AirLake同様、比較的簡単に扱うことができ、その点でも評価をいただいています。

FastLabelFastLabelのWebサイトより

石田氏:DATAFLUCTが目指しているのは「データの民主化」です。より多くの企業や組織に、できるだけ効率的かつ簡単に、データ活用の基盤を利用していただきたい。そんな思いと、FastLabelさんの持つテクノロジーやプラットフォームがバチッと合致した感じですね。

また、DATAFLUCTは、ROIの設定を含むデータ活用の設計から、基盤の提供、そして実際にデータ活用を行い、結果を検証し改善するところまで一気通貫で伴走することを得意とする会社でもあります。全体のPMや統括などの部分はDATAFLUCTでしっかり担い、アノテーションなどの専門分野は外部のプロフェッショナルにお願いしたいという思いもあって、今回のFastLabelさんとの協業を決めました。

企業での導入事例も続々!今後も活用が期待される

DATAFLUCT石田和也氏とFastLabelの鈴木健史氏

──企業からはどのようなニーズがあるのでしょうか? 具体的な非構造化データの活用方法や事例などをお教えください。

石田氏:ナレッジを見える化して共有したいというニーズが多いですね。これまで、いわゆる「KKD(経験・勘・度胸)」でやってきた属人的な業務を、データによってきちんと分析し、人材の教育指導に生かしたい、そのような声が多いと感じます。あとは、コールセンターなどの品質向上です。膨大な音声データを分析し、クレームにつながる語句や、評価につながる語句など、対応のカギとなる言葉を抽出して、サービス対応の品質向上などに役立てている事例が多くあります。

DATAFLUCTのAirLake画像提供:DATAFLUCT

特に印象的だったのが、ある建設会社が新しいマンションを建設する際に行なったデータ活用の取り組みです。これまでは建築士の知識や経験にもとづき、マンションの間取りの設計を行っていたのですが、ナレッジを見える化し、若手に共有したいということで、まずは過去の平面図を読み込んで構造化しました。さらに、どういった間取りが人気だったか、その間取りのマンションの周辺環境や住民の年齢層などのデータも付与し、新しい間取りを設計する際に、奥行きと幅を入力するだけで参考となる間取りや付帯情報が出てくるようなシステムを作っています。これによって、経験の浅い人材でも、比較的高度な設計業務が安定的に手早くできるようになったという実例があります。

──なるほど。設計図を大量に読み込ませて活用するという方法もあるのですね。今後についてはいかがでしょうか? 非構造化データはどのような活用方法や可能性があるとお考えですか?

石田氏:当面は企業のナレッジ共有で活用されることが多いのではないかと思います。日本の企業も、情報をドキュメント化するところまではできています。ノウハウを書き記したものや、マニュアル化したドキュメントは持っている。けれど、それがあちこちに散らばってサイロ化していて、まったく共有されていないということが多いのです。ですから、まずは、これらを構造化して見える化する。その波がしばらくは続き、ナレッジの共有という文脈で活用されて、その先に、新たな活用の道筋が見えてくるんじゃないかという気がしますね。

鈴木氏:FastLabelの場合は製造業のお客様が多く、たとえば、「工場のラインに設置されたカメラの映像データとAIを活用して品質チェックを自動化したい」とか、「人の動きを分析して効率的な導線を導き出したい」といった要望をよくいただきます。今後は、少子高齢化で働き手の不足がさらに加速するでしょうから、これまでは熟練の職人が担っていたような品質管理を、データ活用によって自動化したいというニーズが増加するものと思います。

石田氏:いずれにせよ、まだまだ「データ活用を進めたいけどコストなどの問題があり進められない」「そもそもどうしたらいいかわからない」という企業が多いと感じます。そういった企業を、上流のプランニングの部分から伴走してしっかり支援していきたいですね。

鈴木氏:私たちは、DATAFLUCTさんやAirLakeを、効率のよいアノテーションや質の高い教師データで引き続き力強くサポートしていきたいと思っています。

DATAFLUCT関連記事

Ledge.ai 編集部
Ledge.ai編集部です。最新のAI関連技術、テクノロジー、AIのビジネス活用事例などの情報を毎日発信しています。

「AI:人工知能特化型メディア「Ledge.ai」」掲載のオリジナル版はこちら非構造化データは「宝の山」!非構造化データを構造化しAI活用するにはどうすればいい?DATAFLUCTとFastLabelの場合

この記事が役に立ったらシェア!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

今日の用語

スマートフォン
携帯電話としての通話機能だけでなく、パソコンのように多くの機能を有している小型の ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]