【レポート】【re:Mars 2019】「Voice Control for Any Thing」で #Alexa のワークショップに参加してきた。#reMARS #AlexaDevs

音声アシスタント特集

Amazon re:MARS 2019

#機械学習

#イベントレポート

#Amazon Alexa

せーの

2019.06.06

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

せーのでございます。
只今私はAmazon初めてのAI・機械学習系カンファレンス「re:Mars 2019」に参加するため、アメリカはラスベガス「Aria Casino & Resort」に来ております。

このエントリーでは1日目に行われたワークショップ「Voice Control for Any Thing」をレポート致します。

会場

会場はAriaのConvention Center。「Jupitar 4」という少し広めの場所でした。

会場につくと、各テーブルにはモニター、キーボード、マウスが配置されており、てっきりノートPCを見やすくするためかと思ったら、後にラズパイ用だと判明しました。

講師はAmazonのソリューションアーキテクト、Eric Fahsl氏。まずはAlexaに関するプレゼンテーションを聞いてからワークショップに入ります。9時スタート、17時終了という長丁場です。

セッション

今日やること
- AVSを「CanaKit」というLED付きのラズパイにセットアップする
- カスタムスキルを作成する
- AWS IoTを連携させてAlexaからラズパイにつながっているLEDを操作する

なぜVoiceなのか
- 声によるコミュニケーションズは非常に自然なインターフェース
- インターフェースの歴史からVUIはこれから必ず来る
Amazon Echo
- Echoは2014年に登場した
- 現在は14の国でサポートされ、60000以上のAlexaで動く製品が出荷されており、90000以上のスキルが公開されている
- Echoを始めとしたスピーカー、タブレット、TVなど1億人以上の手にAlexa built-inのデバイスが届いている
AVSの仕組み
- Alexaはクラウドベース
- ユーザーがAVSの入っている製品に話しかけると、クラウドにてASR、NLUなどを通じてその意図が解釈され、バックエンドに送られる
- 例えば「Alexa, will I need an umbrella tomorrow?（アレクサ、明日傘いる？）」と聴くと、サーバー上では「DOMAIN: WEATHER / INTENT: RAIN / DATE: TOMORROW」といった要素に分解され、バックエンドのスキルに情報としてリクエストされる
- スキルはその情報を元に処理を行い、レスポンスをAlexaに返す
- AlexaはTTSを使ってそのレスポンスを音声に変更してスピーカーからユーザーに返す
Works with Alexa(Smart Home Devices)の場合
- スキルで処理した結果を、それぞれの家電からメーカーのクラウドを通じて指示が送られる

スマートスイッチ
- AWS IoTを通じて現実のものを操作する。今回のワークショップのテーマ

開発者に向けてのAlexaは3種類
- AVS: Alexaを音声認識の製品に組み込む
- ASK: 音声認識体験の構築
- Alexa Smart Home and Gadgets: Works with Alexaで動く製品を開発する
Acoustic Echo Cancellation(AEC)
- ノイズリダクションのアルゴリズムにて、マイクの音声から声以外の音を減衰させる
Wake Word Engine
- キーワードを聞き取る機能。このケースでは「Alexa」
- クラウドベースでWake Wordの検証が行われることでCX（顧客体験）を向上させる
AVS Client SoftWare
- Event: ClientからAlexaへ
- Directive: AlexaからClientへ
AVS Client Software Solutions
- alexa.design/AVSdeviceSDK
- C++ライブラリ
- Github.ioで無料公開
製品のカテゴリ
- スピーカー
- スマートスクリーン
- ヘッドフォン
- スマートホーム
- TV
- 詳細は alexa.design/AVStutorials で

Alexa on Devices

音声連携のモデル
- タッチやタップすることで立ち上がるタイプ
- ハンズフリーで遠くからでも声で立ち上がるタイプ

ワークショップ

ということで、ワークショップに入りました。今回のフローはこんな感じになります。

ラズパイにAVSを入れて、そのラズパイにブレイクボードをつなげ、LEDを配置します。
ラズパイにはUSBのマイクとイヤホンを挿し、ラズパイに話しかけることでAlexaにリクエストを送ります。

スキル側ではLambdaとAWS IoTを連携して、スキルからのリクエストをThings Shadowを変更することで処理します。
ラズパイにはAWS IoT SDKも組み込まれているので、コードを書いてnodeで立ち上げておくことで、Shadowの変更を検知し、LEDが点く、という仕組みになります.

このデモの中にAVS、AWS IoT（IoT Shadow）、ASKを使った構築が組み込まれており、特にIoTの知識がない人はしんどいかもしれない、と最初は感じました。

用意されていたもの

ワークショップで用意されていたのは

Raspberry Pi（またはそれに類するシングルボードコンピュータ)
USBマイク
キーボードとマウス
5mmジャックのついた有線イヤホン
EthernetまたはWi-Fi
micro USBケーブル（電源用）
マイクロSDカード
ブレイクボード
ラズパイとブレイクボードをつなげるGPIOピンまたはbreakoutボード
LEDライト(赤、青、緑）
220Ωの抵抗 x 3
10kΩの抵抗 x 1
ブレイクボードに挿せるスイッチ
ジャンパー線(赤、青、緑、黄）

でした。

配られたSDカードの中にすでにAVSもAWS IoT SDKも入っていて、ご丁寧にインストールスクリプトやサンプルアプリケーションまで入っていましたので、ただテキストを上からなぞっていけばなんとかなる、というものでした。最初は知識によって進捗バラけそうだな、と思っていたのですが、ここまで用意してあると（コードもほぼコピペ）、作り上げること自体は楽勝です。

テキスト: https://avs-dvk-workshop.github.io/