Builders Fairの「Sign&Speak」展示紹介 #reinvent 2019

2019.12.06

AWS事業本部 梶原@ラスベガスです。

AWS re:Invent 2019に参加しています。

セッションを受けている間にMGMで「Builders Fair」(技術展といった方がいいでしょうか)が開催されていたのですが、1つ気になったブース「Sign&Speak」があったのでご紹介します。

概要

簡単に説明すると、機械学習を用いて、画像(動画)認識を行い、手話を学習させて、どういう意味か認識し、またその内容を言葉に変えるといった内容になります。

AWS構成図

処理詳細

画像処理

  1. こちらは単純に撮影した動画(写真)をクライアントからS3へアップロードを実施しているようです。
  2. S3へのアップロードをトリガーとして、SageMakerで画像認識を行っているようです
  3. 結果をDynamoDBに保存しています

音声処理

  1. Amazon Transcribeを用いて、音声を変換しています。
  2. APIのインターフェイス(API-Gateway)を経由し、こちらもDynamoDBに結果を保存しています。

出力処理(プリントアウト)

  1. DynamoDB へ保存された結果(画像処理また音声処理)を出力(今回はプリントアウト)しています。

デモ

実際に自分で、オーストラリアの手話(hello)をやってみました。手がカメラからはみ出てしまったのですが、ちゃんとHelloと認識され プリントアウトして頂きました。

感想

この構成は、AWSのサンプルとしてソースコードを含めて提供されるということでした。(近日中に公開との事です) AWSに詳しい技術者がいなくても場合、マネージドサービスを使い、本来やりたい部分の画像認識処理や出力処理に注力することが可能になるかと思います。 Bduilders Fairでは今回、ご紹介させて頂いた、「Signe&Speak」に限らず、実際にいろいろなPocを見ることができ、またオープンにされている&相談も受け付けますということでした。 あまり時間がなくて、1つ1つを詳細に見ることはかないませんでしたが、実際に動いている所を見ることができるのは実現可能性にかなり近づく印象でした。 ソース等が公開された際は、モデリング部分を変更し日本の手話でもやってみたいと思います。