[レポート] クラウドとマイクロサービスによる音声操作の新時代 - Amazon Echo & Alexa #AWSSummit

2016.06.02

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、せーのです。今日はいよいよスタートしたAWS Summit Tokyo2016から音声認識についてのDeveloperセッションをレポートします。
スピーカーはAVS(Alexa Voice Service)のシニア・エヴァンジェリストであるAmit Jotwani氏です。今セッションが撮影禁止だったため、私が持てる画力の全てを費やして似顔絵を描いてみました。Amit Jotwaniさんはこんな人です。

awssummitalexa0_4

※ご本人に知られませんように。。。

それではいきましょう。

レポート

なぜ音声が重要なのか

  • 現在、インターフェースの主要なデバイスはキーボード、マウスからタッチパネルに変化した。が、タッチは主要なインターフェースではなくなる。
  • 2006年にキーボードとマウスが主流でなくなると言ったら笑うでしょう。でも10年後の今はそうなりつつある。
  • でもモバイルデバイスを使っての操作にタッチはまだUXとしてはうまくいかない。例えば家に帰り、スマホを使って照明をつける場所を選択し、明るさを調節するUXは悪い。妻には壁のスイッチを押したほうが早いと言われた。これが音声であればごく自然に行うことが出来る。
  • 例えばレストランの予約、ガレージの操作を運転したままできたら。携帯を取り出して操作する必要はなくなる。
  • 音声は重要。音声は自然だから。話すだけで良い。電話を操作することはないので今やっていることに集中でき、音声であればすぐにサインインできる。

Amazon EchoとAlexaとは何か?

  • Amazon Echoは最初のエンドポイント。Wakeup Wordと呼ばれる言葉、Alexaと呼びかけるだけで青いリングが光りスタンバイ状態になる。
  • Echoに動いてほしくない時はミュートボタンを押すとリングが赤くなり、Alexaは動かなくなる。Amazonはプライバシーにとても配慮している。
  • 現在Alexaのファミリーは3つ
    • Amazon Echo
    • Echo dot。Echoのミニバージョン。同じようにWakeup Wordで使えるようになる。
    • Amazon Tap。Echoのポータブル版。これはボタンを押下することでAlexaが使えるようになる。
  • 最近、Fire TVがAlexaに対応した。リモコンに向かって音声操作ができるようになっている。

  • これらはクラウドの中にあるのでAlexaは賢くなっていく(Deep Learning)。新しい機能やアップデートは自動的にプッシュされる。

  • Alexaは無限の可能性があるが、全てを私達だけでは開発できないのでDeveloperにAlexaのエコシステムが開放されている。

Alexa Developer Platform

  • Alexa Skill Kit (ASK): コンテンツを作成する仕組み。Skillを登録することでEchoファミリーから簡単に使うことが出来る。
  • Alexa Voice Service (AVS): Echoシリーズ以外にAlexaを操作する音声認識や自然言語解析を提供する。AVSがあればマイクとスピーカーをつけたデバイスがすぐに話しだす事ができる。"Alexa everywhere"というビジョン。
  • マイクやスピーカーを付けられないものでもAlexaによって操作はできる。例えば電球にはマイクやスピーカーはついていないがAlexaによって何かしらのレスポンスを起こすことはできる。

  • AlexaのPlatform

    • ASR: automatic speech recognition。音声を取り出していくつかの英単語に分ける。
    • NLU: natural language understanding。自然言語認識。単語の組み合わせから「意図」を検出する。
    • TTS: text to speeach。 テキストを音声に変換する。
  • speech platform: ルータのようなもの。

  • ユーザがどういうアクションを期待しているかがNLUから送られる。
  • 遅延は最低限に抑える必要がある。自然に便利にするためにはレスポンスは速くなければいけない。

Alexaを使用したデバイス、アプリ

  • triby: 冷蔵庫に磁石で貼り付ける。ハンズフリーな音声通話やラジオ、モバイルとのメッセージボードの共有の他にAlexaの操作が可能。料理のレシピやタイマーのセット等を音声にて行える。
  • cowatch: IoTに接続できるスマートウォッチ。クラウドファンディングにて予定の2倍の資金を調達している。時計にタップすればAlexaが使える。
  • Raspberry pi: AVSをラズパイに載せる方法をステップバイステップでアップしている。
  • Roger: モバイルによる音声メッセージサービス。ウォーキートーキー(トランシーバー)のようなもの。登録した友達に対して音声メッセージを1タップにて送ることができる。友達の1人としてAlexaを登録することができ、コミュニケーションがとれる。iOS/Android対応。
  • Lexi: Alexaに登録したカスタムスキルを簡単にテストすることができる。iOS対応。

Alexa skillをマイクロサービスを使って作成する

  • ASKのスキルには二種類ある。組み込み型のスキルとカスタムスキル。ユーザーがスキルを呼び出せばLambdaが走る。
  • スキルはサーバレス。プッシュする必要はない。ユーザーは朝起きたらもうスキルが使えるようになっている。
  • スキルの構築には2つの構築が必要
    • フロントエンド: ユーザーが言いそうな事をインタラクションモデルとして定義し、フレーズの形にして登録する
    • バックエンド: スキルが呼び出された時に実際に走るLambdaのコード
  • AlexaにはLambdaからTextとVisual(GUI型のカード)が送られる。TextはAlexaのTTSを通して音声にて返答し、VisualはモバイルのAlexaアプリ(日本未配布)を通じてカードの形で表現される。Textには概要、Cardには詳細を示す、という運用が可能。

まだ一里塚

  • 作った時はこんな大きくなるとはおもっていなかった
  • 未来は既にあるものではなく、みんなで一緒に作っていきたい。
  • まだ始まったばかり。長い道のりがまっている。日本ではまだ発売されていない。国際化はとても重要

まとめ

いかがでしたでしょうか。これからの入力デバイスの未来を担うと言われている音声認識。日本でもすでに人工知能を搭載し、自然言語を扱うロボットがどんどん発売されています。Amazon Echoが日本で発売されればその動きは一気に加速することでしょう。
ちなみに会場では簡単なサンプルスキルを構築するライブコーディングが行われていたのですが、そのテストには「Alexa Skill Testing Tools」が使われていました。これは使えるツールだな、と感じました。弊社には海外オフィスにAmazon Echoがあるので、これからはこのツールと実機を使ってブログをどんどん書いていきたいと思います。