【レポート】【re:Mars 2019】A23 – なぜ ” #Alexa Conversations” はユーザーや開発者にとって重要なのか #reMARS #AlexaDevs

2019.06.06

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

せーのでございます。
只今私はAmazon初めてのAI・機械学習系カンファレンス「re:Mars 2019」に参加するため、アメリカはラスベガス「Aria Casino & Resort」に来ております。

このエントリーでは1日目に行われたセッション「A23 - Why ‘Alexa Conversations’ Matters to Customers and Developers」をレポート致します。

スピーカーは

Eric Posen - Principal Product Manager, Atom Tickets
Miles Skorpen - Head of Consumer & Marketplace Products, OpenTable
Zoubin Ghahramani - Chief Scientist, Uber Technologies
Sanju Pancholi - Senior Product Manager, Alexa AI, Amazon

です。

レポート

  • 私はPancholi、Alexa Convertsatioinにフォーカスしたマネージメントの説明をするよ
  • 今日はアーリーアダプターのパートナーにも参加してもらう
  • Atom TicketsのEric Posen、OpenTableのMiles Skorpen、UberのZoubin Ghahramaniだ

Agenda

  • 今日は概要の簡単な説明をする
  • なぜVoiceなのか、Alexaでスキルを作ると決めつけてほしくない
  • 大事なのは「何に注意を払うのか」だ
  • まず最初に今私たちが取り組んでいるプロダクトについての話をする。これはAIを使ったスキル開発の新しい本質的な枠組みだ
  • その後アーリーアダプターたちにバトンを繋ぐ。

Why Voice?

  • 「音声」は人間と機械をつなぐインタラクションとして効率のいい方式だ
  • 音声はとても自然。私たちは書く前に話すことを覚える。それが私たちがタイプしてきた頃からタッチになり、今は話している理由だと思う
  • 音声はハンズフリー。作業を止めずにマルチタスクで物事を行うことが出来る
  • 音声には「バージョン」はない
  • 去年に比べて45%の伸びでスマートスピーカーが出荷されている

  • Alexaは現在80の国で1億人以上のユーザーに使われている
  • 14の異なる言語で90000以上のスキルがあなた達によって開発されている
  • 結果、エンドユーザーがAlexaに対して期待するハードルは2014年の頃から上がっている

  • 当時はスマート家電を操作し、音楽が聞ければよかった。今は同じスマートデバイスの操作でも、より高いレベルでの注文を行っている
  • これらを解決する手段が「会話」だ
  • しかし「会話」「やりとり」は情報の伝達と大いに関係がある。結果、エンドユーザーが適切な行動を取れるように会話を重ねていくことはとても難しい

  • Alexaができるのは単発、シングルの操作だ。「What a wounderful worldかけて」といえば彼女は音楽をかける。しかし今はもっと高レベルなことが求められる
  • 高レベルなことを処理するにはより情報が必要だ。そして会話はマルチターンになっていく
  • この時点でエンドユーザーはより多くの決断を行っているだろう。だがそれを開発側が想像するのは簡単ではない。
  • より会話の内容を進化させ、複雑にし、エンドユーザーの特性や会話した時間帯も考慮すると、それはエンドユーザーにとってより意味のあるもの、価値の高いものになっていく。そして今、私たちはこれを解決するのがどうして難しいのか考えた
  • その結果生まれたのが「Alexa Conversations」だ

  • Alexa ConversationsはAlexaデバイス上でエンドユーザーとの自然な会話を通じてエンゲージメントを上げていく
  • Deep LearningをベースとしてAIを使っている
  • 会話をするためにスキルを作るのではなく、自然な会話を用いてゴールに向かうために作る
  • では「自然な会話」とはなんだろう。会話が自然だと認識されるためには、明示しなければならないある要素がある
  • それは「Robustness(頑健性)」「Flexibility(柔軟性)」「Contextual(文脈を意識)」そして「Proactive(予見すること)」だ

  • 例えば映画の概要をプロットで欲しいエンドユーザーがいるとする。彼らは「synopsis」と言ったり、ベーシックに「summary」と言ったり、「quick rundown」と言ったり、様々な方法で表現する。
  • これを全て前もって予想しておき、全てに対応するように予め準備しておくべきではない、と私は考える
  • 私との話し方は機械の方で学習していってほしい。それこそが会話だ。
  • これが「Robustness」というものの本質だ。あなたがダイアログを考える。Alexa Conversationsはそれを頑健にする

  • つぎは「Flexibility」だ。もし会話として正しい方向性をあなたが強制するとする。色々な寄り道を許さない。
  • しかしエンドユーザーは自分で考えた会話の仕方を愛する
  • Alexa Conversationsはそれをより柔軟に受け止める
  • 映画を見に行く情報を知りたいとき、私はどんな会話を心地よいと感じるか。時間を元にするかもしれないし、特定の映画館でその時間にやっているものを知りたいのかもしれない。
  • 映画以外にでもピザの注文でも、卒業式の贈り物でもよい。考え方は同じだ

  • 文脈。エンドユーザーは情報を繰り返さない。Alexaは文脈を読んでラベリングしていく
  • 友達と会話をしているところを想像して欲しい。「BMW XYのパフォーマンスってどれくらいだろう?」「それはBMW XYの燃費がまず挙げられるね」「BMW XYの安全性は?」、、、友達はどこかに行くだろう
  • Alexa Conversationsはエンドユーザーが情報を繰り返さなくても、その文脈を読み、会話を続けることが出来るようになる

  • 最後にProactive、予見することについて話しておきたい。
  • 会話のイニチアシブを取って勧めるのは効率的ではない
  • Alexaはあなたが「はい」「いいえ」だけ言えば会話が進むように提案をしていく
  • Proactiveな会話はエンドユーザーがゴールに簡単に進むために大事な方法だ

Atom

  • AtomはアーリーアダプターとしてAlexa Conversationsを使ってチケット販売のスキルを作り、5500行のコードを1700行に、800のデータポイントを13にまで減らすことができた
  • これは5%のデータを用意することで70%のコードを削減したことになる

  • サンプルのダイアログを用意することでAlexa Conversationsに会話を生成させる

これが

こうなる

OpenTable

  • OpenTableは51000件以上のレストランと19億人もの人をつなげている紹介サービス
  • 電話は未だ私たちの大きな競合となっている
  • 私たちはAlexa Conversationsが人々に快適な会話を提供すると信じている

Uber

  • 私たちUberの課題の多くは物理世界にある
  • 沢山の複雑な経済的なインセンティブを持った人間のエージェントたちと関係を持っている
  • 人やモノが最適化されることを望んでいる

  • 自然な会話を通じてスマートサジェスチョンを行っている
  • これを「スマートリプライシステム」と呼んでいる
  • End-to-Endの会話をAIを通じてシステム化している

まとめ

いかがでしたでしょうか。このセッションは技術的な中身、というよりAlexaチームがAlexa Conversationsを作るに至った「会話」に対する考え方が語られた感じのセッションでしたね。
Alexa Conversationsはアメリカリージョンにてプレビューが開始されています。興味のある方は是非応募してみてください。