[レポート] DUET:電話応対AIを作る方法 #linedevday_report

DUET:電話応対AIを作る方法

2019年11月20日(水)・21日(木)にグランドニッコー東京 台場でLINEのデベロッパーカンファレンス「LINE DEVELOPER DAY 2019」が開催されました。

本記事は、セッション「DUET:電話応対AIを作る方法」をレポートします。

スピーカー

KyoungTae Doh 氏(NAVER Biz AI / DUET TF)

優れた人間と優れた製品の創造に関心を持っています。検討段階やコンセプト段階にある製品を具現化し、誰もが理解できるレベルまで発展させることに大きく貢献してきました。直近5年間はAIを活用した優れた製品の開発に取り組んでいます。優れた製品の開発方法を多くの人々に紹介することを楽しみにしています。

セッション概要

本プロジェクトは「LINE CONFERENCE 2019」で主要プロジェクトとして紹介され、9月末にアウトバック(Outback)のアウトスタンディングストアで提供される予定になっています。Google Duplexがリリースされてから、AIは通話網でどのように展開されるだろうかと考えていました。そして、ユーザー調査と市場調査を通じて、Duplexと反対の方向性にあるサービスがより重要であると確信しました。Googleは、CallJoyと呼ばれるサービスで、再び私に追随しています。CallJoyは今後、AI技術の中でも注目を集めるでしょう。本プロジェクトは、アナログ感覚に影響を与え始める本格的なAIという意味で、重要なプロジェクトになり、ほとんどの技術を人間主体のAIに移行させるでしょう。本セッションでは、市場を理解するプロセスと、ユーザーの視点からニーズに対処する手法、その手法を活用することで問題を再定義し、既存のAIスピーカーとチャットボットに新たな解決策をもたらした方法についてお話ししたいと思います。

スライド

レポート

  • DUETはプロジェクト名、AiCallは商品名
  • なぜプロジェクトを始めたか?
    • スマホやIVRなどの仕組みがある中でどのくらい予約が電話でされているか?
      • 65%は電話で予約されている
      • データが重要なのでとにかく電話をかけた
    • 3つの重要
      • 電話応対が得意ではない人が多い
      • AIスピーカーと人間の会話は違う
        • コマンドコントロール(AIスピーカー)と挨拶などの会話(人間同士の会話)
      • 電話でAIとの会話はチャットボットとも違う
        • 電話はユーザーは会話の内容を覚えているわけではない
        • チャットボットは、全ての会話が見える
    • 会話スペース
      • 会話全体をスペースとして捉える
      • オープニング→本題→クロージング
      • ex. 電話しているときにWake wordはないすぐに会話が始まる
      • エージェントが最初に話しかける
      • ユーザーは最初ケイパビリティチェックを行う
      • 通話終了のシグナルがある
    • 話し言葉の特徴
      • ユーザーは自然でスムーズな会話を必要とする
      • Overlap(声がかぶること), Balance(話が被らない交互に会話), Silence(沈黙)が要素としてDUETでも重要
      • Silenceが長いとAIスピーカーではあまり関係ないが、電話の時は沈黙があると気まずい
    • 会話デザインフレームワーク
      • 4つの重要な要素
        • Turn, Squence, Activity, Task
      • Sequence
        • AIエージェントが期待に沿った内容であればOKだが、情報が足りなかったりSequence Expandする
        • Partial Repeat Request, Definition Request
      • Activity
        • 明確なタスクの集まり
        • オープニングやクロージング、予約の各タスクなど
        • AIスピーカーでは失敗があるが、会話や通話では失敗がない何度も会話する
    • AIエージェントの仕組み
      • AIスピーカー
        • ユーザーのリクエストをスピーカが認識しストリームで音声認識して結果を音声合成して返すという仕組み
      • AIエージェント
        • クライアントとサーバーでDuplexの状態になっている(受信、送信がつながっている)
        • システムが答えを発しているときにユーザーが発話するとどうするか
          • 発話を停止するか音量を小さくする必要がある
        • 音声認識
          • 電話は8Kの回線になるなので音声認識システムを新しく構築する必要がある
          • より自然なトーンの音声が必要である(電話では不自然であるため)
          • 声の特徴付けを行う
          • 電話での会話モデル
          • Multi-turn NLU vs Single-turn NLU
            • Single-turn: コマンドアクション(何かリクエストをしてアクションさせる)
            • Multi-turn: 会話文脈理解してアクションをする
            • 漢字でAPIエラーになる問題では、Multi-turnで行うと99%成功していた。(会話の蓄積によって正確に捉えられた)
    • Issue
      • Twilio, Nexmo, Other Local Carriersなど様々なシステムで実験した
      • Latencyは、認識の途中結果を返してレスポンスすることで改善
      • デザインとエンジニアリング
        • 設計したパスは必ずユーザーが通るわけではない
        • 設計してテストすると問題が頻発するので、再構築し直す
        • UXデザイナが作ったグラフとエンジニアが作ったグラフが別になっているのでインターフェースを統合した

このようなプロジェクトが可能なのかという疑問があったが本日から実験できるので可能になったことを報告します。

まとめ

先ほどのキーノートでは、DUETの実証実験について触れられていましたが、本セッションにてDUETのより詳細な情報を知ることができました。予約という行為がまだまだ電話を利用したものが多いのでDUETにより、自動化されると予約以外の業務注力が可能となる点が非常に素晴らしいなと思います。