【レポート】 CUS-114:[Startup Talks] Voice x AI で、With コロナ時代に急拡大する音声解析 AI 電話「 MiiTel 」 #AWSSummit

2020年9月8日から30日まで開催されるAWS Summit Onlineのレポートです。
2020.09.25

2020年9月8日から30日まで開催されるAWS Summit Onlineのレポートです。

本記事で取り上げるセッションは下記となります。

セッション情報

スピーカー

株式会社RevComm CTO 平村 健勝 氏

動画はこちら

セッションレポート

従来の電話営業の情報共有プロセス

  • 取引先との通話は、営業担当しか分からないブラックボックス
    • 案件の担当者にニュアンスまで含めて伝わらない
    • 上司が指導しようにも、どう指導したら良いか分からない
    • 製品開発の担当者にお客様の声が届かない

MiiTelを活用した新しい電話営業の情報共有プロセス

  • クラウドPBXと音声解析と分析結果ダッシュボードを備える

  • MiiTelは、Salesforceに組み込んで利用できる
  • PCから電話発着信ができる
  • 通話終了すると、どのようなコミュニケーションだったのかを記録できる
  • 通話はダッシュボード画面で可視化できる
    • 通話時間帯のヒートマップ
    • 通話種別の分類
    • ユーザ別の分析結果の参照
    • など
  • 個々の通話の可視化もできる
    • 通話音声の再生
    • 沈黙回数
    • 被りの回数
    • ラリーの回数
    • 声の高さ、周波数、抑揚の強さ
    • 話すスピード
    • 事前登録したキーワードが何分何秒で登場したか
    • など
  • 通話内容の音声認識結果を表示(文字起こし)
    • フィラー(えー、あのー、等)を除いて表示もできる

MiiTelを支えるコアテクノロジー

  • Cloud PBX
  • ダッシュボード(Webアプリケーション)
  • 音声認識

システムアーキテクト全体像

音声通信(PBX)サーバー群
  • 設計上の考慮事項
    • 瞬間的なシステム停止が許されない、ミッションクリティカルシステム
    • 通信や録音最適化のため、OSレベルでのチューニングが求められる
  • 運用方針
    • Amazon EC2を採用
      • OSレベルのチューニングが可能
  • Well-Architectedなポイント
    • あえてマネージドサービスを使わず、枯れた技術を活用
    • 信頼性向上のため、Datadog+Slackによる監視と通知を徹底
Webアプリケーション
  • 設計上の考慮事項
    • ビジネスの成長にあわせて、ユーザ増加に対応できるようにしたい
    • お客様からの機能追加要望が最も多いため、高頻度アップデートを実現したい
  • 運用方針
    • オートスケーリングが容易なFargateを採用
    • CodeDeployを用いてGitHubと連動した自動デプロイ
  • Well-Architectedなポイント
    • サイジング・デプロイの自動化による効率化
    • マネージドサービスの活用により、セキュリティリスクを回避
音声認識クラスタ
  • 設計上の考慮事項
    • 最大数分間の処理遅延なら許容できる(最もSLAが低い)
    • 営業電話の活発な時間にリクエストが急激に増加する
    • 音声認識モデルが数百GBかつ音声データ特有の複数モデルを使ったパイプラインが存在
  • 運用方針
    • SQSとスポットインスタンスを活用し、待機キュー数に応じて伸縮可能なクラスタ管理を独自開発
  • Well-Architectedなポイント
    • コストを大幅に抑えながらも、高性能なサーバーを必要な文だけ調達
全文検索エンジン
  • 設計上の考慮事項
    • 1日あたり数万件の音声通話の音声認識結果を全文検索する
  • 運用方針
    • Amazon Elasticsearchを活用し、構築・運用を効率化できる構成を採用
  • Well-Architectedなポイント
    • マネージドサービスを活用し、最小の工数でサービスイン
    • API開発やテスト、データ移行含め、わずか2名(兼任)で開発した

Well Architected Frameworkの導入によって得られた効果

  • 運用性
    • マイクロサービスアーキテクチャを導入し、適切にオーナーを定めて権限移譲することで、ミーティングは週1だった
  • セキュリティ
    • マネージドサービスを活用してリクス回避するとともに、毎日平均5-10件の高頻度リリースを実現
  • パフォーマンス
    • 各サービスに求められるSLAを考慮して、コストを掛けるべき箇所、掛ける必要のない箇所それぞれに対し、適切な設計を実現
  • 信頼性
    • 安定稼働を実現し、1年半強で10000ユーザが利用
    • これまでに1400万件以上のコールがMiiTel経由で発着信
  • コスト最適化
    • 音声認識クラスタは、対オンデマンドインスタンス比で70%以上のコストを節約

感想

インサイドセールスの課題を解決するために、これでもかと技術を投入されていてすごいです。 瞬間的なシステム停止が許されないため、OSレベルでのチューニングをしている点は、「そこまでするのか」と同時に「そこまでしないと駄目なのか」と驚きを覚えました。