ちょっと話題の記事

ぼくのかんがえるなかよくなれそうなAlexaとは1

2017.07.07

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

灼熱の候, 暑中お伺い申し上げます、せーのです。

今日はクラメソの創立記念日、ということで投稿本数が多いです。これだけ本数が多いと多少エモいことを書いても紛れるだろう、ということで、私の考える「理想の音声アシスタントとは」について書いてみようかな、と思います。

VUIを考える時必ず悩むこと

alexaexeptecho1

現在私はAWS事業部から出向して「Alexa事業部」というところにいます。
ここは文字通りAmazonの音声アシスタント「Echo」なんかに載っているプラットフォーム「Alexa」についての研究、開発や、Alexaを使ったスキルを作りたい、というクライアントさんへのコンサル、開発なんかをやっています。

ということでここ数ヶ月、ひたすら音声認識についてガッツリハマっている私ですが、Alexaのアプリである「Skill」はこういう手順を踏んで開発をすることが多いです。

VUI_Design1

要件とゴールを決めたらVUI(Voice User Interface)設計を行うわけですが、このVUI設計で色々悩んだり、考えたりすることが多いです。それは「こう言われたらどういうフローに飛ぼうか」という設計上の悩みはもちろんなのですが「Alexaになんてしゃべらせようか」というキャラクターとしての立ち位置に悩むことが多いです。

それはVUIという、いわばプログラムの骨組みを設計する機械的な作業とは別に、エンドユーザーはどのように話しかけられると満足するか、という非常に人間味溢れるUXについての悩みなのです。

Alexaはクラウドにある。Echoはエンドユーザーが買ってくる

そもそもVUIはインターフェースですので入力に対して適切な出力が返ってくれば要件は満たします。ただしこの入力が音声の場合、ユーザーの感情が乗りやすくなります。ユーザーが話しかけるEchoは、ユーザーが自ら量販店やネットで購入して、自宅に常に置いてあるものです。Alexaはクラウド上にあるプラットフォームでAmazonが管理しているものですが、Echoはユーザーの家や車、リュックサックの中に常にいて、話しかけると答えてくれる、という存在です。つまり「ユーザーのもの」なのです。

ここが所謂WebインターフェースやiPhoneアプリと大きく違うところです。Webサイトやアプリはそれを作っている会社があって、そこから提供されているものだ、ということをユーザーはよく理解しています。つまり「システム提供者のもの」です。最近のWebやアプリはセッション管理がキチンとされている場合が多く、「あなたにオススメのコンテンツはこれです」と言ったユーザーフレンドリーな情報の提供をしてくれることも多いです。が、ユーザーにとってあくまでそれは「システム側が私の好みを理解して、適切な情報を勧めてくれている」という受け止め方をします。一方Echoのような音声アシスタントは「ユーザーの側に立って、ユーザーの代わりに色々な情報を持ってきてくれる」という捉え方をされる事が多いです。まったくの他人ではないんですね。AmazonがCMしている動画を見ると、Alexaの立ち位置が従来のアプリとは違うことがわかるかと思います。

この「ユーザーへの近さ」がVUI設計の最大のポイントだと私は考えています。

「Alexaに話させたいこと」と「Alexaに話してほしいこと」は違う

Skillを作る時は会話の内容はテキストメッセージで記述します。そうするとどうしてもWebやアプリの時のクセが抜けず、とても他人行儀な受け答えをしてしまうことがあります。例えば小売店で席の予約をするSkillを作っているとして、小上がりの席を頼みたい時に既に埋まっている場合、どのように答えるでしょうか。

小上がりの席は既に満席のため予約できません。

これで充分インターフェースとしては機能します。ですが、ここでこう答えたらどうでしょう。

小上がりの席ですね。残念ながら小上がりはもう埋まっているようです。

言い回しとしては少しの違いですが、立ち位置としては大きく違います。VUIの基本である「ユーザーの発話をユーザー自身に確認させるため、発話内容を繰り返す」という処理をした後に、「取れなくて残念だ」という気持ちを伝えます。最後に「満席」という熟語ではなく「埋まっている」という少し砕けた言葉遣いでユーザーに返します。

では、こういう答えならどうでしょう。

いやー、埋まってるって。どうしようか?

これは確かにユーザーフレンドリーです。ですが、ここまで砕けるとより精密な設計が必要となります。というのも取りたい席が埋まっている時に毎回Alexaがこの回答をした場合、ユーザーは「所詮機械の応答」と捉え、文言のフランクさと相まって一気に冷めてしまう可能性が高いです。つまり、似たような言い回しをあと5つくらいは用意しておく必要があります。
また人間は砕けた言い方をする相手には砕けた言い方で話しかける、という特徴があります(心理学ではミラーリング効果、と言います)。Alexaがあまりに砕けた言い回しをすると、ユーザーもつられて砕けた言い方でAlexaに話しかけることになります。そうするとAlexaの自然言語理解機能(NLU)がスラングに追いつかずにエラーとなる原因を作ってしまいます。一定の距離感は必要なのです。

ちなみにこの時に私が考えるベストの回答はこれです。

小上がりの席は残念ながら埋まっているようです。その時間なら雰囲気の似ている「XX」というお店の小上がりが空いていますが、予約しますか?

Clovaの食いつきの良さ

ここ最近いくつかのカンファレンスで音声認識についてお話をする機会がありました。内容は本当に実践的なSkillの作成法から現在の音声認識を総ざらいするようなものまで様々でしたが、私が関心したのはその中でご紹介したLINEの音声アシスタント「Clova」に対しての参加者の食いつきがものすごかった事です。

AlexaやGoogle Homeはまだ英語インターフェースであり、Clovaは日本語である、ということも大きいとは思いますが、特に参加者のアンテナに引っかかったのは、上のCMでの「明日のあなたにやってもらいましょう」というClovaのセリフでした。

VUI的には単純にスケジュールに予定が入らない(入れると予定が被ってしまう)エラーメッセージかと思います。ですが「明日のあなたにやってもらいましょう」というセリフにはClovaがスケジュールだけではなくエンドユーザーの体調や精神面まで慮っているようなニュアンスがあります。
エンドユーザーが音声アシスタントに求めているのは「自分の事を理解してくれて」「自分の立場で話してくれる」ことなのだと感じました。

Alexaはナイトライダーやタチコマになれるか

ここでエンドユーザーが理想とするような音声アシスタントとはどのようなものか、イメージしてみたいと思います。私のイメージでは音声アシスタントとは

  • ユーザーに寄り添っている
  • ユーザーよりスペック的には優秀
  • しかしユーザーより判断能力はやや弱い
  • ユーザーの事を考えた行動を取る
  • 発展途中である

というものです。これらのイメージで私の世代でパッと思い浮かぶのは海外ドラマ「ナイトライダー」の「ナイト2000」、通称"Kid"です。

こちらは車についているAIアシスタントですが、べったりしすぎず、よそよそしくなりすぎず、ユーザーとの絶妙な距離感を保っている「相棒」です。
またアニメでいうと「攻殻機動隊」のAIロボット「タチコマ」もアシスタントとしてのイメージには近いです。こちらは音声アシスタントというよりややロボットに近いですが。。。

ここまで考えていくと音声アシスタントのあるべき姿、というのはあくまで上下関係、いや、「使役関係」といったほうが良いでしょうか、これを守った上での共感が必要、ということでしょうか。それとなくユーザーを気遣いつつ、立場的に拒否すべきは拒否し、たまにはジョークを言って和ませる。「後輩」や「秘書」と言った立場がしっくりきそうです。日本人の方が理解しやすい立ち位置かもしれませんね。

クラウドにつながるアシスタントが本来発揮できる能力とは

さて、音声アシスタントに求められている事柄としては「ユーザーにとって手のかかる作業をやってくれる」ということが挙げられます。それは例えば「情報の収集」だったり「機械の操作」だったり「施設の予約」だったり「知り合いへの連絡」だったり多岐に渡ります。

これらはシステムに関わっている人間からすると、容易に想像できる範囲のものです。認証情報をやり取りし、外部APIと繋がって、バックグラウンドで処理した結果をフロントエンドに持ってくる。確かにユーザーに取っては便利ですが、音声アシスタントが求められる事は、将来的にその一歩先を行くものと考えます。機械学習との連携です。

現在機械学習やDeep Learningと言えば画像認識や多項分類など、所謂認知上パターン化されているものを繰り返し学習させることによって精度を増すような取り組みに進んでいることが多いです。しかし本来機械学習は大量のデータの中から「機械ならではの視点で見つけ出した共通項」を元に判断する事が理想、と考えます。
例えば小さな子供がある一定の物を見たときにだけ声が上ずる、という周波数上の特性を学習し、子供が好きそうなおもちゃをクリスマス前にレコメンド、家に届ける、と言った取り組みです。
人間の「作業」を代替させる存在から、人間の「判断」を代替する存在へ。これらは考え方によっては非常に怖いものです。それだけにこのような処理を託せると思われるようになるには機械と人間の距離感が非常に大事になります。音声アシスタントにはその可能性があると考えます。

まとめ

以上、創立記念日に今思っていることをツラツラと並べてみました。音声アシスタント、そしてVUIは日本ではまだまだ手探りの状態です。自分の理想はあれど、それが正しいのかはまだわかりません。ただ、個人的には音声アシスタントはこうあって欲しい、こうなっていって欲しい、と、音声認識事業に取り組むうちに感じるようになっている「概念」はあります。

これから音声認識について沢山の経験、体験をしていくことになると思います。1年後、このブログを私がどう見ているのか、私自身とても楽しみにしています。