[レポート] Alexa and Machine Learning on AWS #alexaday2018 #jawsug

2018.02.12

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

本記事は Alexa Day 2018 のセッション「Alexa and Machine Learning on AWS」のレポートです。

スピーカー

リビングに5台のEchoを置いてる、桶谷さん

桶谷 拓也

概要

Alexa and Machine Learning on AWS

スライド

[slideshare id=87768532&doc=20180211alexaday2018-180211050049]

レポート

AmazonとMachine Learning

  • Amazon.comが公開されたころから、AmazonはMachine Learningを使ってきた
  • いまでは、多くのサービスで利用されている
    • Amazon Robotics
      • 人は動かず、棚が動いてくる。配送までの時間が短縮
      • 倉庫内での事故が減った
    • Amazon Go
      • RFIDタグは使ってない
    • Amazon PrimeAir
    • Amazon Echo
      • アメリカでは1つの部屋に1つのEchoを目指している
    • Amazon Key

Amazon Alexa

  • クラウドベースの音声サービス
    • 自動音声認識
    • 自然言語理解
    • 音声合成
  • 2つの重要なフレームワーク
    • Alexa Skills Kit(ASK)
    • Alexa Voice Service(AVS)
  • 50年間でのUIの変遷
    • CLI → GUI → Web → Mobile → VUI(Voice User Interface)
  • Voice Interfaceは新しい標準
    • 2014年ごろは音声検索のトラフィックはごくわずかだったが、現在では全トラフィックの10%を超えている(Alexa以外も含めて)

Alexa for Business

  • Alexaは家庭での主流インタフェースを「声」にした
    • Alexaはビジネス環境でも家庭と同じことをする
  • 企業で利用する場合の課題。Alexa for Business はこれらの課題を解決する。
    • デバイスのプロビジョニング(大量のセットアップは大変)
    • 集中管理
    • プライバシーとセキュリティ
      • 人の声を聞き分けられるようになってきている
      • プライベートスキルが作れる
        • UI上はまだない、ASK CLIコマンドでのみ作成することが可能
        • (プライベートスキルについては、弊社 平内の記事がありますので参照ください)
  • Alexa for Business APIとツールを使用してスキルにコンテキスト(状況に応じた動作)を追加する
    • Resolve Room
      • どこのEchoから実行されたか判別することができる
      • ラスベガスのホテル「ウィン・ラスベガス」では、各部屋にEcho Dotを設置し、ルームサービスに利用されている
    • Skill Parameters
      • スキルに他システムへのインデックスを提供
  • その他
    • ルームを作るのに住所が必要だが、現在登録できるのはアメリカの住所のみ
    • セットアップは.exe形式のファイルで提供されるので、Windowsが必要

MLServices

  • Amazon Rekognition
    • 静止画だけでなく、動画も分析できる
    • リアルタイムな分析
      • 監視カメラ
        • 予定外の入室者→シャッターおろす、といったユースケース
      • 動画にタグ付け
        • 動画データの検索性の向上
  • Amazon Polly
  • Amazon Lex
    • 対話型インターフェース(ボット)
    • 8kHzの電話音声サポート
      • 電話音声の認識精度向上によって、Amazon Connectとの連携が便利になった
  • Amazon Comprehend
    • 自然言語理解のサービス
      • 文章を入力すると、重要な箇所を自動抽出
      • 文章から感情を読み取る
  • Amazon Translate
    • 非辞書型の翻訳サービス
  • Amazon Transcribe
    • speech-to-textサービス
    • リアルタイム処理も可能
    • 通常音声、電話音声どちらも対応
    • ユースケース
      • コールセンターにかかってきた問い合わせを、テキストに起こす
    • 句読点の補完
      • 文字起こしのサービスはよくあるが、句読点を補完してくれるものは少ない

ML Platform

  • Amazon Kinesis Video Streams
    • 大量のカメラデバイスからアップロードされる、動画ストリームなどを容易に
    • Amazon Rekognition Videoとの連携
    • ユースケース
      • 監視カメラ。アメリカの警察では既につかっているところもある。
  • Amazon SageMaker
    • フルマネージドな機械学習サービス。3つの構成要素
      • ノートブック
        • 必要なライブラリを含んだインスタンスの起動
      • 学習
        • Dockerイメージを起動して学習を実行
        • 複数インスタンスで分散隔週
      • 推論
        • モデルのデプロイ。エンドポイントから推論が可能
    • すべてを使うだけでなく、個別に利用することも可能
    • モデルを作るところには最もコストがかかる

ML Engines

  • DeepLearning AMI
    • SageMakerつかわずに、DeepLearning AMI を使うことも

その他

  • Amazon ML Solutions Lab
    • Amazon が培ってきた機械学習のノウハウを伝授する
      • シアトルに行っていただく必要あります

Summary

  • Alexa for Business はビジネスユースで利用可能
  • AWS では4つのレイヤーからなる、さまざまな機械学習サービスを提供
    • Services
    • Platform
    • Engines
    • Infrastracture

所感

機械学習サービスは、まだまだ使う機会が少なく、どういうサービスだっけ??と思うことがしばしばありましたが、今回、機会学習サービスの概要について、あらためて整理することが出来ました。以上、丸毛でした!