Alexa Dev Day Tokyo 2018レポート- VUIワークショップ第一部 #alexa #devdays
せーのでございます。今日は2018年10月12日、13日に千葉はヒルトン東京ベイにて行われた「Alexa Dev Day Tokyo 2018」の様子をレポート致します。
この記事ではVUIワークショップより「VUIワークショップ第一部」をレポートします。スピーカーはAmazonシニアソリューションアーキテクトであるJustin Jeffress氏、同じくデベロッパーエバンジェリストの畠中俊巳氏です。
レポート
- 昔から人間はツールを使うことで便利な環境を手に入れてきた
- スマートフォンが開発されて以降、歩きながらあらゆることができるようになった
- 携帯は自分の手の中にないと使えない。音声であればハンズフリーで情報をもらったりものを動かすのはラク
- 音声はここ数年で実用的になった。なので最近VUIが注目されている
VUIとは
- バナナがある。人はバナナがなくなったとしても「ここにバナナがあった」ということをイメージした上で会話ができる。人はそういったコンテキストをともに会話が成立するが、機械はその場でもらった情報のみで判断せざるを得ない。
- 人間は様々な情報を全て含めて会話を行う。予想外に話が変わったとしても対応できる。機械にはできない。それが難しい
- GUIは全部で何項目質問項目があるのか、が見てわかる。「コンピュータのデザインはこうあるべきだ」という流れに人間が無意識に合わせている。
- VUIの場合はそのようなフォーマットや項目は全くない。そこで人間をうまく誘導する必要が出てくる。
スキル開発のライフサイクル
- スキル開発には5つのフェーズがある。
- 1: プランニング。このサービスは音声でやる必要があるのだろうか、というところからリサーチを重ねる
- 2: VUIデザイン。シナリオを作ってユーザをどう誘導するか考える。一番時間がかかる。
- 3: ビルド。開発工程。
- 4: ローンチ・宣伝。出した数日はTOPに出て目立つが、すぐに埋もれてしまうので、自分でスキルをアピールする場所を持つ。
- 5: 改良。一度作っただけで放置するとユーザは飽きてくる。毎日何か違う反応を行うような改良をしてバージョンアップを繰り替えさないと、長く使ってもらえない。
会話のデザイン
- シャノンとウィーバーのコミュニケーションモデル
- コンピュータ同士はインターフェースが規定されているため「何がくるか」はわかっている。ノイズが入っていてもパリティチェックなどで弾く => シャノンが考えた「通信路符号化定理 · 標本化定理」
- ウィーバーはそれを元に「人間ならどう考えるか」を考えた
- 人間同士のコミュニケーションにはフォーマットはない。何が来るかはわからない
- 今、隣の席の人に「次なんだっけ?」と聞くと、「おそらく次のセッションの話」をするだろう。それはお互いに同じ環境にいて、同じことを考えているから
- しかし、外にいる人に同じように「次なんだっけ?」と聞くと、バスの時間を答えるかもしれない。ここにいる人といない人では反応が違う
- それをコンピュータにやらせようとしている
- 人間は無意識に推測して答えを出す。コンピュータにはできない。でもそれがやりたい
「問答」と「会話」の違い
- 単純な問答と会話の違いは何?
- 「会話」とはお互いに知識の前提が共有している上で話している
- 「会話」は相手の答えにくいことは聞かない。言われて嫌がりそうなことは無意識に避ける。
- 会話中に得た情報は次回のために覚えておくことができる。前回の会話を元に話し合う
Foodie(お食事ガイド)
- 「Foodie」をジャスティンさんが作った。畠中さんがそれを「お食事ガイド」として翻訳した
- Foodie: 会話を元に時間と場所にぴったりな食事を提案するスキル
- 「お食事ガイド」デモ
- IVRのように番号を指定させるようなものではなく、カジュアルに会話をしても受け止める
- 人間らしい要素はどこ?
- リアクションを返す
- 思いがけないもの(複数の答え)を言われた時に受け止める
- 「お役に立ててよかったです」という気遣い
- 名前を呼んでくれるところ
- 二回目以降の起動が初回と違うところ
- 前回情報を使う(名前、住所を聞かない、履歴)
- 前回よりショートになっている
- 初対面じゃない人の話し方(夕食の時間ですね)
- 意図しない答え(味を聞かれているのにチーズバーガーと答える)に対応している
スキルの作り方
アイデアの発想
- 何をしてくれるスキルなのか
- 希望に沿う食事を提案する
- いくつかの質問を順番に問いかける
- ユーザーの好みや週間を学習
- ユーザーは質問をスキップできる
- 音声でやるメリットはそこにあるか
- 過去の経験を元により速い情報を届けられるか
- 究極は「いつもの」で成立するもの
- 常にVUIがふさわしいわけではない。大事なことはアイデアと実装のバランス
ユーザーの特定(ペルソナ)
- 設定を想像して実際のモデルを作る
- どんなユーザーを想定しているのか
- ユーザーはこのスキルで何がしたいのか
- ユーザーはいつこのスキルを使いそうか
- ユーザーは俗語や同義語を使ったりするか
- 例えば
- たけしさん、東京都在住、22際、職場にいる、ランチを外で食べたいと思っている
- いつも同じところで食事するのに飽き飽きしている。どこかいいところを提案して欲しい
- 職場にいてお腹が空いた時に使う
- たけしさんは典型的な関西人。関西弁を使う。
- ゴミ収集のスキルなどは地方ごとにある。地方色の濃いスキルは地方の言葉に対応させたほうがよい
台本の作成
- 「台本」と「フローチャート」の違い
- フローチャートで会話を再現しようとすると条件が多すぎて書ききれなくなる
- 会話が飛ぶ場合に再現できない
- Happy path scripting(ハッピーパス)
- ユーザーが最終目的までたどり着くようなシンプルなパターンを想定して台本に起こす
- 実際に声を出して「書き言葉」になっていないように確認する
- 予想外の展開にも対応する
シノニムとコンボブレイカー
- 格闘ゲームではコンボをよく作る
- 情報をもらっても、大きな反撃を食らう(コンボブレイカー)
- 「大盛りか通常か」を聞いているのに「大盛りとは何グラム以上か」を聞き返してくる、など
- 同じものを別の言い方で表現する(シノニム)
- コンテキストギャップとはー人間は長い時間をかけて、あらゆる状況や経験から判断している。が、コンピュータはわからない
ワークショップ
- ユーザーに聞かなくても得られる情報 => ◯で囲む
- ユーザーに聞かなければ得られない情報(他に情報源がない)=> アンダーラインを引く
まとめ
いかがでしたでしょうか。コーディングに入る前のVUIの設計について、とても細かい、ステップに分けたお話を聞くことができました。このワークショップを参考に、深みのあるスキルを作っていきたいものです。