[AWS Black Belt Online Seminar] Amazon AI 入門レポート

菊池修治

2017.03.30

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、菊池です。

2017年3月29日（水）のAWS Black Belt Online Seminarを受講しましたので、レポートします。

今回は Amazon AI 入門 ということで、昨年末のre:inventで発表された3つのAIサービスの紹介です。講師はAWSJソリューションアーキテクトの川村誠さんでした。

発表スライドは以下です。

AWS Black Belt Online Seminar 2017 Amazon AI 入門 from Amazon Web Services Japan

レポート

アジェンダは以下の通りでした。

Amazon AI
Amazon Polly
Amazon Rekognition
Amazon Lex
まとめ

Amazon AI

AI Services
- APIで簡単にAIが利用できるので、サービスの開発に集中できる
- Amazon Polly
- Amazon Rekognition
- Amazon Lex
AI Platforms
- Amazon Machine Learning
- Amazon EMR
AI Engines

GPUやFPGAを利用可能なインスタンスも

Deep Learningを利用した3つの新サービス
- Amazon Polly：文章を音声に変換するサービス
- Amazon Rekognition：画像認識機能をアプリケーションに簡単に追加
- Amazon Lex：声/テキストを使用した会話型インターフェース

Amazon Polly

概要

テキストをリアルな音声に変換
24の言語、47の声優の音声を提供
低レイテンシで高速、リアルタイムシステムを構築する選択肢に
生成した音声の保存/リプレイ/配信が可能

日本語対応

Pollyの品質
- 3つの観点で品質を確保
- 自然に聞こえる音声：どれくらい人間の声に近いか
- 変換処理の正確さ：数字や略語、同じ綴りで発音が異なる語彙などを解釈する能力
- 高度なわかりやすさ：どれくらいわかりやすいか（ex. 庭には二羽のニワトリがいる）

Text to Speech処理

テキスト処理
単語を認識
音素に変換
発音記号割り当て
韻律曲線
ユニットの選択と適用
ストリーミング

仕組み

APIを呼び出しで指定
- 声（TTS）
- 出力形式（MP3/Ogg Vorbis形式/PCM）
SSMLとレキシコンを使うことでより柔軟な合成音声を実現

SSML（Speech Synthesis Markup Language）v1.1
- タグを指定することで、発音、ボリューム、速度などをカスタマイズ

レキシコン（Pronounciation Lexicon Specification (PLS)） v1.0
- 単語とフレーズのパッピングや、一般的でない発音を定義しカスタマイズ
- Ex. W3C -> World Wide Web Consortium

Pollyの制限事項

入力テキストサイズ：最大1500課金対象文字（SSMLタグは除く）、合計3000文字
レキシコン：入力テキストに最大5個
出力オーディオストリーム：最大5分（超過時は切り取られる）

価格とリージョン

$4.0/100万文字
生成した音声ファイルを保存しえおき、再利用する際は課金されない
無料枠あり：最初のリクエストから12ヶ月、1月あたり500万文字まで
リージョン
- US East（N. Virginia/Ohio）
- US West（Oregon）
- EU（Ireland）

Amazon Rekognition

深層学習（ディープラーニング）による画像認識
画像分析機能をアプリケーションに簡単に追加

機能

物体とシーンの検出
顔分析
顔照合
顔認識

物体とシーンの検出：DetectLabels API
- 画像から認識した物体（車/ペット/家具など）にラベルを付け、信頼スコアを取得
- ユースケース：不動産物件の検索
顔分析：DetectFaces API
- 画像内の顔の位置を検出し顔属性（感情、ポーズ、瞳が開いているかなど）を分析
- ユースケース：店舗内の顧客印象分析
顔照合（比較）：CompareFaces API
- 2つの画像の顔が同一人物である可能性を測定
- ユースケース：従業員の認証
顔認識：IndexFaces/SearchFacesByImage API
- 大規模な顔コレクションの中から似た顔を見つけ、画像内にいる人物を識別
- ユースケース：友人の顔を見つける

Lambdaによるブループリントの提供

Rekognitionの制限事項

S3に保存されている参照画像の最大サイズは15MB、最小は80ピクセル（高さ・幅）
APIのパラメータとして引き渡し可能な素画像サイズの最大は5MB
フォーマットはPNGとJPEG
1人の顔の画像コレクションの最大数は100万件
顔画像検索最大数は4096件

価格とリージョン

1ヶ月あたり画像処理100万枚まで：$1.00/1,000枚
1ヶ月あたり画像処理100万枚超1,000万枚まで：$0.80/1,000枚
1ヶ月あたり画像処理1,000万枚超1億枚まで：$0.60/1,000枚
1ヶ月あたり画像処理1億枚超：$0.40/1,000枚
顔メタストレージ：1ヶ月あたりに保存される顔メタデータ$0.01/1,000件

※　各APIで1枚以上の入力画像を受信した場合に画像処理1枚とカウント

無料枠：最初の12ヶ月、5,000枚/月の画像分析と1,000件/月の顔メタデータ保存
リージョン
- US East（N. Virginia/Ohio）
- US West（Oregon）
- EU（Ireland）

Amazon Lex

概要

音声やテキストを利用して任意のアプリケーションに対話型インターフェース（bot）を構築
AWSプラットフォームのセキュリティ、モニタリング、ユーザー認証、ビジネスロジック、ストレージ、モバイルアプリケーション開発を実現するスイート
現時点ではlimited Previewのサービスなので、利用にはプレビュープログラムへのサインアップが必要

特徴

高度な深層学習に基づく、音声をテキストに変換するための自動音声認識（ASR）とテキストの意図を理解するための（NLU）を利用可能
モバイル、ウェブアプリ、およびFacebook Messenger（SlackとTwilioとは近日中に統合予定）などのチャットサービスに簡単にパブリッシュ
開発者向けにデザインされており、効率的で直感的なツールを提供
バージョン管理とバージョンに対するalias設定機能を提供
エンタープライズシステムに接続可能なコネクタを統合

仕組み

Intents：ユーザの入力に応答してfulfillmentを実行
Utterances：intentを発動する入力フレーズ
Slots：intentを満たすための入力データ
Prompt：slotを引き出すためのフレーズ
Fulfillment：intentを実現するビジネスロジック

ユースケース

情報ボット
- 患者向け診察予約ボット

価格とリージョン

$0.004/音声リクエスト
$0.00075/テキストリクエスト
サービス提供リージョン
- US East（N. Virginia）　Limited Preview

まとめ

DeepLearningを利用した3つのAIサービス
- Polly
- Rekognition
- Lex
参考情報
- Amazon AI
- AWS AI Blog

今後のオンラインセミナー

AWS オンラインセミナースケジュール

来月からは新年度ということで、EC2、VPC、S3といったAWSの基本サービスが主体となるようです。

最後に

以上です。

今回は昨年末のre:inventで発表された3つのAIサービスの紹介でした。これらのサービスを使うことで、DeepLearningやAIの専門知識がなくても、簡単にそれらを利用したアプリケーション/サービスを構築することができそうです。

Black Beltオンラインセミナーは、サービスの特徴や使い方を体系的に解説してくれますので、新しいサービスを素早く理解するのに非常に助かります。

[AWS Black Belt Online Seminar] Amazon AI 入門レポート

レポート

Amazon AI

Amazon Polly

概要

Text to Speech処理

仕組み

Pollyの制限事項

価格とリージョン

Amazon Rekognition

機能

Rekognitionの制限事項

価格とリージョン

Amazon Lex

概要

特徴

仕組み

ユースケース

価格とリージョン

まとめ

今後のオンラインセミナー

最後に

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS