Alexa Dev Day Tokyo 2018レポート- VUIワークショップ第一部 #alexa #devdays

2018.10.12

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

せーのでございます。今日は2018年10月12日、13日に千葉はヒルトン東京ベイにて行われた「Alexa Dev Day Tokyo 2018」の様子をレポート致します。

この記事ではVUIワークショップより「VUIワークショップ第一部」をレポートします。スピーカーはAmazonシニアソリューションアーキテクトであるJustin Jeffress氏、同じくデベロッパーエバンジェリストの畠中俊巳氏です。

レポート

  • 昔から人間はツールを使うことで便利な環境を手に入れてきた
  • スマートフォンが開発されて以降、歩きながらあらゆることができるようになった
  • 携帯は自分の手の中にないと使えない。音声であればハンズフリーで情報をもらったりものを動かすのはラク
  • 音声はここ数年で実用的になった。なので最近VUIが注目されている

VUIとは

  • バナナがある。人はバナナがなくなったとしても「ここにバナナがあった」ということをイメージした上で会話ができる。人はそういったコンテキストをともに会話が成立するが、機械はその場でもらった情報のみで判断せざるを得ない。
  • 人間は様々な情報を全て含めて会話を行う。予想外に話が変わったとしても対応できる。機械にはできない。それが難しい

  • GUIは全部で何項目質問項目があるのか、が見てわかる。「コンピュータのデザインはこうあるべきだ」という流れに人間が無意識に合わせている。
  • VUIの場合はそのようなフォーマットや項目は全くない。そこで人間をうまく誘導する必要が出てくる。

スキル開発のライフサイクル

  • スキル開発には5つのフェーズがある。
    • 1: プランニング。このサービスは音声でやる必要があるのだろうか、というところからリサーチを重ねる
    • 2: VUIデザイン。シナリオを作ってユーザをどう誘導するか考える。一番時間がかかる。
    • 3: ビルド。開発工程。
    • 4: ローンチ・宣伝。出した数日はTOPに出て目立つが、すぐに埋もれてしまうので、自分でスキルをアピールする場所を持つ。
    • 5: 改良。一度作っただけで放置するとユーザは飽きてくる。毎日何か違う反応を行うような改良をしてバージョンアップを繰り替えさないと、長く使ってもらえない。

会話のデザイン

  • シャノンとウィーバーのコミュニケーションモデル

  • コンピュータ同士はインターフェースが規定されているため「何がくるか」はわかっている。ノイズが入っていてもパリティチェックなどで弾く => シャノンが考えた「通信路符号化定理 · 標本化定理」
  • ウィーバーはそれを元に「人間ならどう考えるか」を考えた
  • 人間同士のコミュニケーションにはフォーマットはない。何が来るかはわからない
  • 今、隣の席の人に「次なんだっけ?」と聞くと、「おそらく次のセッションの話」をするだろう。それはお互いに同じ環境にいて、同じことを考えているから
  • しかし、外にいる人に同じように「次なんだっけ?」と聞くと、バスの時間を答えるかもしれない。ここにいる人といない人では反応が違う
  • それをコンピュータにやらせようとしている
  • 人間は無意識に推測して答えを出す。コンピュータにはできない。でもそれがやりたい

「問答」と「会話」の違い

  • 単純な問答と会話の違いは何?
  • 「会話」とはお互いに知識の前提が共有している上で話している
  • 「会話」は相手の答えにくいことは聞かない。言われて嫌がりそうなことは無意識に避ける。
  • 会話中に得た情報は次回のために覚えておくことができる。前回の会話を元に話し合う

Foodie(お食事ガイド)

  • 「Foodie」をジャスティンさんが作った。畠中さんがそれを「お食事ガイド」として翻訳した
  • Foodie: 会話を元に時間と場所にぴったりな食事を提案するスキル
  • 「お食事ガイド」デモ

  • IVRのように番号を指定させるようなものではなく、カジュアルに会話をしても受け止める
  • 人間らしい要素はどこ?
    • リアクションを返す
    • 思いがけないもの(複数の答え)を言われた時に受け止める
    • 「お役に立ててよかったです」という気遣い
    • 名前を呼んでくれるところ

  • 二回目以降の起動が初回と違うところ
    • 前回情報を使う(名前、住所を聞かない、履歴)
    • 前回よりショートになっている
    • 初対面じゃない人の話し方(夕食の時間ですね)
    • 意図しない答え(味を聞かれているのにチーズバーガーと答える)に対応している

スキルの作り方

アイデアの発想

  • 何をしてくれるスキルなのか
    • 希望に沿う食事を提案する
    • いくつかの質問を順番に問いかける
    • ユーザーの好みや週間を学習
    • ユーザーは質問をスキップできる
  • 音声でやるメリットはそこにあるか
  • 過去の経験を元により速い情報を届けられるか
  • 究極は「いつもの」で成立するもの
  • 常にVUIがふさわしいわけではない。大事なことはアイデアと実装のバランス

ユーザーの特定(ペルソナ)

  • 設定を想像して実際のモデルを作る
    • どんなユーザーを想定しているのか
    • ユーザーはこのスキルで何がしたいのか
    • ユーザーはいつこのスキルを使いそうか
    • ユーザーは俗語や同義語を使ったりするか
  • 例えば
    • たけしさん、東京都在住、22際、職場にいる、ランチを外で食べたいと思っている
    • いつも同じところで食事するのに飽き飽きしている。どこかいいところを提案して欲しい
    • 職場にいてお腹が空いた時に使う
    • たけしさんは典型的な関西人。関西弁を使う。
  • ゴミ収集のスキルなどは地方ごとにある。地方色の濃いスキルは地方の言葉に対応させたほうがよい

台本の作成

  • 「台本」と「フローチャート」の違い
    • フローチャートで会話を再現しようとすると条件が多すぎて書ききれなくなる
    • 会話が飛ぶ場合に再現できない

  • Happy path scripting(ハッピーパス)
    • ユーザーが最終目的までたどり着くようなシンプルなパターンを想定して台本に起こす
    • 実際に声を出して「書き言葉」になっていないように確認する
    • 予想外の展開にも対応する

シノニムとコンボブレイカー

  • 格闘ゲームではコンボをよく作る
  • 情報をもらっても、大きな反撃を食らう(コンボブレイカー)
    • 「大盛りか通常か」を聞いているのに「大盛りとは何グラム以上か」を聞き返してくる、など
  • 同じものを別の言い方で表現する(シノニム)
  • コンテキストギャップとはー人間は長い時間をかけて、あらゆる状況や経験から判断している。が、コンピュータはわからない

ワークショップ

  • ユーザーに聞かなくても得られる情報 => ◯で囲む
  • ユーザーに聞かなければ得られない情報(他に情報源がない)=> アンダーラインを引く

まとめ

いかがでしたでしょうか。コーディングに入る前のVUIの設計について、とても細かい、ステップに分けたお話を聞くことができました。このワークショップを参考に、深みのあるスキルを作っていきたいものです。