[AWS Black Belt Online Seminar] Amazon AI 入門 レポート

2017.03.30

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、菊池です。

2017年3月29日(水)のAWS Black Belt Online Seminarを受講しましたので、レポートします。

今回は Amazon AI 入門 ということで、昨年末のre:inventで発表された3つのAIサービスの紹介です。講師はAWSJソリューションアーキテクトの川村誠さんでした。

発表スライドは以下です。

レポート

アジェンダは以下の通りでした。

  • Amazon AI
  • Amazon Polly
  • Amazon Rekognition
  • Amazon Lex
  • まとめ

Amazon AI

  • AI Services
    • APIで簡単にAIが利用できるので、サービスの開発に集中できる
    • Amazon Polly
    • Amazon Rekognition
    • Amazon Lex
  • AI Platforms
    • Amazon Machine Learning
    • Amazon EMR
  • AI Engines
  • GPUやFPGAを利用可能なインスタンスも
  • Deep Learningを利用した3つの新サービス
    • Amazon Polly:文章を音声に変換するサービス
    • Amazon Rekognition:画像認識機能をアプリケーションに簡単に追加
    • Amazon Lex:声/テキストを使用した会話型インターフェース

Amazon Polly

概要

  • テキストをリアルな音声に変換
  • 24の言語、47の声優の音声を提供
  • 低レイテンシで高速、リアルタイムシステムを構築する選択肢に
  • 生成した音声の保存/リプレイ/配信が可能
  • 日本語対応
  • Pollyの品質
    • 3つの観点で品質を確保
    • 自然に聞こえる音声:どれくらい人間の声に近いか
    • 変換処理の正確さ:数字や略語、同じ綴りで発音が異なる語彙などを解釈する能力
    • 高度なわかりやすさ:どれくらいわかりやすいか(ex. 庭には二羽のニワトリがいる)

Text to Speech処理

  1. テキスト処理
  2. 単語を認識
  3. 音素に変換
  4. 発音記号割り当て
  5. 韻律曲線
  6. ユニットの選択と適用
  7. ストリーミング

仕組み

  • APIを呼び出しで指定
    • 声(TTS)
    • 出力形式(MP3/Ogg Vorbis形式/PCM)
  • SSMLとレキシコンを使うことでより柔軟な合成音声を実現
  • SSML(Speech Synthesis Markup Language)v1.1
    • タグを指定することで、発音、ボリューム、速度などをカスタマイズ
  • レキシコン(Pronounciation Lexicon Specification (PLS)) v1.0
    • 単語とフレーズのパッピングや、一般的でない発音を定義しカスタマイズ
    • Ex. W3C -> World Wide Web Consortium

Pollyの制限事項

  • 入力テキストサイズ:最大1500課金対象文字(SSMLタグは除く)、合計3000文字
  • レキシコン:入力テキストに最大5個
  • 出力オーディオストリーム:最大5分(超過時は切り取られる)

価格とリージョン

  • $4.0/100万文字
  • 生成した音声ファイルを保存しえおき、再利用する際は課金されない
  • 無料枠あり:最初のリクエストから12ヶ月、1月あたり500万文字まで
  • リージョン
    • US East(N. Virginia/Ohio)
    • US West(Oregon)
    • EU(Ireland)

Amazon Rekognition

  • 深層学習(ディープラーニング)による画像認識
  • 画像分析機能をアプリケーションに簡単に追加

機能

  • 物体とシーンの検出
  • 顔分析
  • 顔照合
  • 顔認識
  • 物体とシーンの検出:DetectLabels API
    • 画像から認識した物体(車/ペット/家具など)にラベルを付け、信頼スコアを取得
    • ユースケース:不動産物件の検索
  • 顔分析:DetectFaces API
    • 画像内の顔の位置を検出し顔属性(感情、ポーズ、瞳が開いているかなど)を分析
    • ユースケース:店舗内の顧客印象分析
  • 顔照合(比較):CompareFaces API
    • 2つの画像の顔が同一人物である可能性を測定
    • ユースケース:従業員の認証
  • 顔認識:IndexFaces/SearchFacesByImage API
    • 大規模な顔コレクションの中から似た顔を見つけ、画像内にいる人物を識別
    • ユースケース:友人の顔を見つける
  • Lambdaによるブループリントの提供

Rekognitionの制限事項

  • S3に保存されている参照画像の最大サイズは15MB、最小は80ピクセル(高さ・幅)
  • APIのパラメータとして引き渡し可能な素画像サイズの最大は5MB
  • フォーマットはPNGとJPEG
  • 1人の顔の画像コレクションの最大数は100万件
  • 顔画像検索最大数は4096件

価格とリージョン

  • 1ヶ月あたり画像処理100万枚まで:$1.00/1,000枚
  • 1ヶ月あたり画像処理100万枚超1,000万枚まで:$0.80/1,000枚
  • 1ヶ月あたり画像処理1,000万枚超1億枚まで:$0.60/1,000枚
  • 1ヶ月あたり画像処理1億枚超:$0.40/1,000枚
  • 顔メタストレージ:1ヶ月あたりに保存される顔メタデータ$0.01/1,000件

※ 各APIで1枚以上の入力画像を受信した場合に画像処理1枚とカウント

  • 無料枠:最初の12ヶ月、5,000枚/月の画像分析と1,000件/月の顔メタデータ保存
  • リージョン
    • US East(N. Virginia/Ohio)
    • US West(Oregon)
    • EU(Ireland)

Amazon Lex

概要

  • 音声やテキストを利用して任意のアプリケーションに対話型インターフェース(bot)を構築
  • AWSプラットフォームのセキュリティ、モニタリング、ユーザー認証、ビジネスロジック、ストレージ、モバイルアプリケーション開発を実現するスイート
  • 現時点ではlimited Previewのサービスなので、利用にはプレビュープログラムへのサインアップが必要

特徴

  • 高度な深層学習に基づく、音声をテキストに変換するための自動音声認識(ASR)とテキストの意図を理解するための(NLU)を利用可能
  • モバイル、ウェブアプリ、およびFacebook Messenger(SlackとTwilioとは近日中に統合予定)などのチャットサービスに簡単にパブリッシュ
  • 開発者向けにデザインされており、効率的で直感的なツールを提供
  • バージョン管理とバージョンに対するalias設定機能を提供
  • エンタープライズシステムに接続可能なコネクタを統合

仕組み

  • Intents:ユーザの入力に応答してfulfillmentを実行
  • Utterances:intentを発動する入力フレーズ
  • Slots:intentを満たすための入力データ
  • Prompt:slotを引き出すためのフレーズ
  • Fulfillment:intentを実現するビジネスロジック

ユースケース

  • 情報ボット
    • 患者向け診察予約ボット

価格とリージョン

  • $0.004/音声リクエスト
  • $0.00075/テキストリクエスト
  • サービス提供リージョン
    • US East(N. Virginia) Limited Preview

まとめ

  • DeepLearningを利用した3つのAIサービス
    • Polly
    • Rekognition
    • Lex
  • 参考情報

今後のオンラインセミナー

来月からは新年度ということで、EC2、VPC、S3といったAWSの基本サービスが主体となるようです。

最後に

以上です。

今回は昨年末のre:inventで発表された3つのAIサービスの紹介でした。これらのサービスを使うことで、DeepLearningやAIの専門知識がなくても、簡単にそれらを利用したアプリケーション/サービスを構築することができそうです。

Black Beltオンラインセミナーは、サービスの特徴や使い方を体系的に解説してくれますので、新しいサービスを素早く理解するのに非常に助かります。