Alexa Dev Day Tokyo 2018レポート- VUIワークショップ第一部 #alexa #devdays

音声アシスタント特集 Alexa Dev Day Tokyo 2018

せーの

2018.10.12

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

せーのでございます。今日は2018年10月12日、13日に千葉はヒルトン東京ベイにて行われた「Alexa Dev Day Tokyo 2018」の様子をレポート致します。

この記事ではVUIワークショップより「VUIワークショップ第一部」をレポートします。スピーカーはAmazonシニアソリューションアーキテクトであるJustin Jeffress氏、同じくデベロッパーエバンジェリストの畠中俊巳氏です。

レポート

昔から人間はツールを使うことで便利な環境を手に入れてきた
スマートフォンが開発されて以降、歩きながらあらゆることができるようになった
携帯は自分の手の中にないと使えない。音声であればハンズフリーで情報をもらったりものを動かすのはラク
音声はここ数年で実用的になった。なので最近VUIが注目されている

VUIとは

バナナがある。人はバナナがなくなったとしても「ここにバナナがあった」ということをイメージした上で会話ができる。人はそういったコンテキストをともに会話が成立するが、機械はその場でもらった情報のみで判断せざるを得ない。
人間は様々な情報を全て含めて会話を行う。予想外に話が変わったとしても対応できる。機械にはできない。それが難しい

GUIは全部で何項目質問項目があるのか、が見てわかる。「コンピュータのデザインはこうあるべきだ」という流れに人間が無意識に合わせている。
VUIの場合はそのようなフォーマットや項目は全くない。そこで人間をうまく誘導する必要が出てくる。

スキル開発のライフサイクル

スキル開発には5つのフェーズがある。
- 1: プランニング。このサービスは音声でやる必要があるのだろうか、というところからリサーチを重ねる
- 2: VUIデザイン。シナリオを作ってユーザをどう誘導するか考える。一番時間がかかる。
- 3: ビルド。開発工程。
- 4: ローンチ・宣伝。出した数日はTOPに出て目立つが、すぐに埋もれてしまうので、自分でスキルをアピールする場所を持つ。
- 5: 改良。一度作っただけで放置するとユーザは飽きてくる。毎日何か違う反応を行うような改良をしてバージョンアップを繰り替えさないと、長く使ってもらえない。

会話のデザイン

シャノンとウィーバーのコミュニケーションモデル

コンピュータ同士はインターフェースが規定されているため「何がくるか」はわかっている。ノイズが入っていてもパリティチェックなどで弾く => シャノンが考えた「通信路符号化定理 · 標本化定理」
ウィーバーはそれを元に「人間ならどう考えるか」を考えた
人間同士のコミュニケーションにはフォーマットはない。何が来るかはわからない
今、隣の席の人に「次なんだっけ？」と聞くと、「おそらく次のセッションの話」をするだろう。それはお互いに同じ環境にいて、同じことを考えているから
しかし、外にいる人に同じように「次なんだっけ？」と聞くと、バスの時間を答えるかもしれない。ここにいる人といない人では反応が違う
それをコンピュータにやらせようとしている
人間は無意識に推測して答えを出す。コンピュータにはできない。でもそれがやりたい

「問答」と「会話」の違い

単純な問答と会話の違いは何？
「会話」とはお互いに知識の前提が共有している上で話している
「会話」は相手の答えにくいことは聞かない。言われて嫌がりそうなことは無意識に避ける。
会話中に得た情報は次回のために覚えておくことができる。前回の会話を元に話し合う

Foodie（お食事ガイド）

「Foodie」をジャスティンさんが作った。畠中さんがそれを「お食事ガイド」として翻訳した
Foodie: 会話を元に時間と場所にぴったりな食事を提案するスキル
「お食事ガイド」デモ

IVRのように番号を指定させるようなものではなく、カジュアルに会話をしても受け止める
人間らしい要素はどこ？
- リアクションを返す
- 思いがけないもの（複数の答え）を言われた時に受け止める
- 「お役に立ててよかったです」という気遣い
- 名前を呼んでくれるところ

二回目以降の起動が初回と違うところ
- 前回情報を使う（名前、住所を聞かない、履歴）
- 前回よりショートになっている
- 初対面じゃない人の話し方（夕食の時間ですね）
- 意図しない答え（味を聞かれているのにチーズバーガーと答える）に対応している

スキルの作り方

アイデアの発想

何をしてくれるスキルなのか
- 希望に沿う食事を提案する
- いくつかの質問を順番に問いかける
- ユーザーの好みや週間を学習
- ユーザーは質問をスキップできる
音声でやるメリットはそこにあるか
過去の経験を元により速い情報を届けられるか
究極は「いつもの」で成立するもの
常にVUIがふさわしいわけではない。大事なことはアイデアと実装のバランス

ユーザーの特定（ペルソナ）

設定を想像して実際のモデルを作る
- どんなユーザーを想定しているのか
- ユーザーはこのスキルで何がしたいのか
- ユーザーはいつこのスキルを使いそうか
- ユーザーは俗語や同義語を使ったりするか
例えば
- たけしさん、東京都在住、22際、職場にいる、ランチを外で食べたいと思っている
- いつも同じところで食事するのに飽き飽きしている。どこかいいところを提案して欲しい
- 職場にいてお腹が空いた時に使う
- たけしさんは典型的な関西人。関西弁を使う。
ゴミ収集のスキルなどは地方ごとにある。地方色の濃いスキルは地方の言葉に対応させたほうがよい

台本の作成

「台本」と「フローチャート」の違い
- フローチャートで会話を再現しようとすると条件が多すぎて書ききれなくなる
- 会話が飛ぶ場合に再現できない

Happy path scripting（ハッピーパス）
- ユーザーが最終目的までたどり着くようなシンプルなパターンを想定して台本に起こす
- 実際に声を出して「書き言葉」になっていないように確認する
- 予想外の展開にも対応する

シノニムとコンボブレイカー

格闘ゲームではコンボをよく作る
情報をもらっても、大きな反撃を食らう（コンボブレイカー）
- 「大盛りか通常か」を聞いているのに「大盛りとは何グラム以上か」を聞き返してくる、など
同じものを別の言い方で表現する（シノニム）
コンテキストギャップとはー人間は長い時間をかけて、あらゆる状況や経験から判断している。が、コンピュータはわからない

ワークショップ

ユーザーに聞かなくても得られる情報 => ◯で囲む
ユーザーに聞かなければ得られない情報（他に情報源がない）=> アンダーラインを引く

まとめ

いかがでしたでしょうか。コーディングに入る前のVUIの設計について、とても細かい、ステップに分けたお話を聞くことができました。このワークショップを参考に、深みのあるスキルを作っていきたいものです。

Alexa Dev Day Tokyo 2018レポート- VUIワークショップ第一部 #alexa #devdays

レポート

VUIとは

スキル開発のライフサイクル

会話のデザイン

「問答」と「会話」の違い

Foodie（お食事ガイド）

スキルの作り方

アイデアの発想

ユーザーの特定（ペルソナ）

台本の作成

シノニムとコンボブレイカー

ワークショップ

まとめ

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS