Ledge.ai出張所 Ledge.ai出張所

Amazon侵攻開始!AWS AI ソリューション『Polly』『Rekognition』が安すぎてスゴすぎた

「Amazon AI」ってご存じですか? Amazon謹製のAIソリューション群のなかから、今回は音声認識・解析系の「Polly」、画像解析系の「Rekogni

さて皆様、やや今更感もありますが、『Amazon AI』ってご存じですか?

2016年の12月の『AWS re:Invent』で公開されたAmazon謹製のAIソリューション群なんですが、今回はこの中から音声認識・解析系の『Polly』、画像解析系の『Rekognition』に触ってみました。

で、実感として 『おいこれ安いな…』 と改めてビックリしたので以下レポートしてみたいと思います。

Amazon AIて…とりあえず何ができる何なのこれ?


とりあえず全部揃ってるらしい

ざっくり『できること』ベースで書いてしまうと、『頑張れば大体なんでもできるでっかいプラットフォーム』で話が終わってしまいます。

なので、今回はそのソリューション群の中から特に分かりやすいやつをピック。 既に学習済みで、サービスとして提供されている以下を試してみました。

  • 自然言語理解と対話を可能にする『Amazon Lex
  • 24ヶ国語に対応し多言語文章を音声で読み上げる『Amazon Polly
  • 画像内の物体やシーン、顔を検出し分析できる『Amazon Rekognition

※Amazon Lexについてはまだ対応が英語オンリーで、加えて以前デジマラボで思いっきり細かくレポートしたことがあるので今回は割愛。

24ヶ国語に対応し多言語文章を自然な音声で読み上げてくれる『Amazon Polly』

https://aws.amazon.com/jp/polly/

  • 無料枠:最初のリクエストから12ヶ月間、500万文字/月 まで無料
  • 料金:以降は100万文字あたり0.02ドル~4ドル(従量課金制)

もう見出しで全部いいきっちゃってますが、要するに読み上げツールの1つです。

今のところ24の言語に対応し、言語によっては(日本語は1パターンのみですが)複数のキャラクター選択も可能。もちろんアプリやWebからの呼び出しもカンタンという便利なサービス。

仕組みとしては以下のような感じ

つまりテキストを意味分類し、指定言語において『その文脈で読み上げるには何が適切か』をまず判断。

さらにそこから『この文節の並びならこんな抑揚になるはず』という音韻を学習データから作成。調整して出力するイメージらしいですね。

この仕組みなら、例えば日本語特有の『かなカナ仮名&アルファベット混じり』のテキストでも割となんとかしてくれたりしちゃいます。

これは既存テキストを上手く活かしたい場合にかなり有用ですね。安すぎるほど安いですし。

実際のデモ例


別タブで再生する場合はこちら

リップシンクに使える?スピーチマークデータ出力も

なんとこのPolly、返ってくるデータにスピーチマークと呼ばれる『その文節しゃべる時の唇の形』『語句と文を切り分けるポイント』をセットにしたデータ出力が可能だったりします。

以下がその一例。

{"time":0,"type":"sentence","start":0,"end":54,"value":"音声の再生音韻は日本語だとまだまだ。"}
{"time":6,"type":"word","start":0,"end":6,"value":"音声"}
{"time":6,"type":"viseme","value":"o"}
{"time":105,"type":"viseme","value":"k"}
{"time":194,"type":"viseme","value":"s"}
{"time":306,"type":"viseme","value":"@"}
{"time":455,"type":"word","start":6,"end":9,"value":"の"}
{"time":455,"type":"viseme","value":"t"}
{"time":534,"type":"viseme","value":"o"}

例えばLive2Dとかのキャラと合わせて、妙にリアルに口と動きがシンクロするキャラの作成…とかもまぁ可能っぽいですね。(何に使うのかはイマイチ思いつかないですが;;)

もちろん以下のように 文単位オンリーのデータ出力も可能なので、音声データからの形態素解析専用APIとして活用。みたいなこともできるかもです。

{"time":6,"type":"word","start":0,"end":6,"value":"音声"}
{"time":455,"type":"word","start":6,"end":9,"value":"の"}
{"time":594,"type":"word","start":9,"end":15,"value":"再生"}
{"time":1136,"type":"word","start":15,"end":21,"value":"音韻"}
{"time":1521,"type":"word","start":21,"end":24,"value":"は"}
{"time":1661,"type":"word","start":24,"end":30,"value":"日本"}
{"time":2068,"type":"word","start":30,"end":33,"value":"語"}
{"time":2178,"type":"word","start":33,"end":36,"value":"だ"}
{"time":2326,"type":"word","start":36,"end":39,"value":"と"}

実際にWebサービスやアプリから利用する際にはこの辺のサンプルソースを参照。

さらに(機能的にはまだ微妙な感じなので深掘りしないですが)レキシコンを用いた言い換え指示も可能。要するに『www』をワールドワイドウェブと読ませたりする指定ができる機能みたいです。※参照

将来的に『声色データをこっちでアップして学習 ⇒ 出力』なんてこともできるように…なったりするんですかね?楽しみです。

画像内の物体やシーン、顔を検出し分析できる『Amazon Rekognition』

https://aws.amazon.com/jp/rekognition/

  • 無料枠:最初のリクエストから12ヶ月間、画像5,000枚/月 まで無料
  • 料金:以降は画像1000枚あたり0.4ドル~1ドル(従量課金制)※詳細

これまた妙なほど安いですが、こちらはAPIで利用できる画像解析ソリューション。

物体とシーンの検出、顔の分析、顔の照合(この写真の人とこの写真の人は同一人物化否か)、顔認識などなどに使えるらしく、GoogleのCloud vision APIと近いコンセプトのツールみたいですね。

実際幾つか試してみましたが、例えばこんな感じ。


家具、机、紙、など。基本的なオブジェクト認識は得意っぽい

実際この機能についてはそこまで細かな分析はできないっぽいですが、それでも机の上というシーン検出はできてるっぽいです。

さらにビックリなのは人間の顔分析。こちらは既にかなりの精度。


わかりにくい微妙な表情から『笑顔』『幸せそう』などのタグ付けができています。

目の開き方や口角の上がり方などから感情タグを返してくれたり、大量の写真の中から特定の人物の写真だけを選択したり。

あるいは『2つの写真の似てる度合いを自動判別』したり…などなど。


複数の顔を検出しつつ、対象の顔との類似度を返してくれる。画像類似度ではなく顔検知からの類似度検出なので、顔以外には現状使えない。

他にもいわゆるいかがわしい画像かどうか?の判別機能も提供されているので、この辺のSDKを活かして例えば…

  • サービスに組み込んでの投稿画像自動バリデーション
  • 表情分析を使って店頭設置カメラからのユーザー態度変容調査
  • 同一人物の写真を抜粋する機能提供

などなど。なんとも『あったら嬉しい』な機能をライトに試せそうな印象でした。

枚数によってはCloud vision APIより相当お安く?

もちろん使い方しだいって話ではあるものの、同様の機能を持つGoogle Cloud vision APIと比べてもかなり割安な価格設定です。やっぱり。

Amazon Rekognition 料金表

Google Cloud vision API 料金表

月1000枚以内とかって小さな用途であれば無料のGCPには叶いませんが、ある程度本格的に使おうと思ったらAmazonのほうが思いっきり安くなる…といった設定。

お得意の『安価で殴り込む』スタイルは健在っぽいですね。

ガンガン廉価化が進む各種AIソリューションの利用料と、僕らの考えるべきこと

ちょーどクラウドが流行りはじめた頃に似ていますが、案の定『世界中で使える安いやつ』を大手がガンガンリリース ⇒ それらを上手く活用しつつ本業のビジネスに取り入れる流れ。なんかまた来てる感じがしていますね。

誰もが基本的な部分についてはラクラク組めるようになっていく中で、では自分たちはどこにどうこだわっていくべきか。どんな価値を生み出していくべきか。

ようやく『AIでなんかやった実績』ではなく本質的な部分が求められるようになっていく…んですかね。楽しみです。


何かやりたい!でもまだ何から考えればいいのかも分からない!という方は、ぜひともお気軽にデジマラボチームへご相談を。

世界中のあっちゃこっちゃで起こるAI導入成功・失敗事例と、各ベンダーの特性を把握しているからこそ提供できるプランと設計が(多分)あります。

ではまたー。

中村 健太 by 中村 健太
数多くのメディアコンサルとコンテンツクリエイティブに関わってきた経験を持つ株式会社ビットエーのCMO。KaizenPlatformのグロースコンサルとしても知られ、2014年より一般社団法人日本ディレクション協会の会長を務める。主な著書に「Webディレクターの教科書」「Webディレクション最新常識」など。

「BITA デジマラボ」掲載のオリジナル版はこちらAmazon侵攻開始!AWS AI ソリューション『Polly』『Rekognition』が安すぎてスゴすぎた

この記事が役に立ったらシェア!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

Python
「Python」(パイソン)は、プログラミング言語の1つ。プログラマのグイド・ヴ ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]