Builders Fairの「Sign&Speak」展示紹介 #reinvent 2019

AWS re:Invent 2019

AWS

梶原大使

2019.12.06

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

AWS事業本部梶原＠ラスベガスです。

AWS re:Invent 2019に参加しています。

セッションを受けている間にMGMで「Builders Fair」（技術展といった方がいいでしょうか）が開催されていたのですが、１つ気になったブース「Sign&Speak」があったのでご紹介します。

概要

簡単に説明すると、機械学習を用いて、画像（動画）認識を行い、手話を学習させて、どういう意味か認識し、またその内容を言葉に変えるといった内容になります。

AWS構成図

処理詳細

画像処理

こちらは単純に撮影した動画（写真）をクライアントからS3へアップロードを実施しているようです。
S3へのアップロードをトリガーとして、SageMakerで画像認識を行っているようです
結果をDynamoDBに保存しています

音声処理

Amazon Transcribeを用いて、音声を変換しています。
APIのインターフェイス(API-Gateway)を経由し、こちらもDynamoDBに結果を保存しています。

出力処理（プリントアウト）

DynamoDB へ保存された結果（画像処理また音声処理）を出力（今回はプリントアウト）しています。

デモ

実際に自分で、オーストラリアの手話(hello)をやってみました。手がカメラからはみ出てしまったのですが、ちゃんとHelloと認識されプリントアウトして頂きました。

感想

この構成は、AWSのサンプルとしてソースコードを含めて提供されるということでした。（近日中に公開との事です） AWSに詳しい技術者がいなくても場合、マネージドサービスを使い、本来やりたい部分の画像認識処理や出力処理に注力することが可能になるかと思います。 Bduilders Fairでは今回、ご紹介させて頂いた、「Signe&Speak」に限らず、実際にいろいろなPocを見ることができ、またオープンにされている＆相談も受け付けますということでした。あまり時間がなくて、１つ１つを詳細に見ることはかないませんでしたが、実際に動いている所を見ることができるのは実現可能性にかなり近づく印象でした。ソース等が公開された際は、モデリング部分を変更し日本の手話でもやってみたいと思います。

Builders Fairの「Sign&Speak」展示紹介 #reinvent 2019

概要

AWS構成図

処理詳細

画像処理

音声処理

出力処理（プリントアウト）

デモ

感想

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS