録音ファイルから文章を書き起こすAmazon Transcribeが予想外に夢を感じる! #reinvent #MCL215

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

re:Invent2017で新サービスとしてリリースされた、文章書き起こしマネージド・サービス、Amazon Transcribeのデモセッションに参加したのでご報告です。

MCL215 NEW LAUNCH! Introducing Amazon Transcribe – Now in Preview

せっション概要はこちら。

Amazon Transcribe is an automatic speech recognition (ASR) service that makes it easy for developers to add speech to text capability to their applications. The ASR service can be used across a breadth of industries. For example, customer contact centers can convert call recordings into text for further analysis of what drives positive outcomes; media content producers can automate subtitling workflows for greater reach, and marketers and advertisers can enhance content discovery and display more targeted advertising based on the extracted metadata.

セッション受講前は、「録音ファイルからテキストを起こすだけなのか。ふーむ」ぐらいのテンションだったんですが、他にも感情識別機能、文章タグづけによるタイムライン遷移、複数人の区別など、従来の録音ファイルだけではできなかった様々な利用方法や、ユースケースが紹介されていて、面白かったです。

  • 文字抽出以外の主な機能
    • 固有名詞の抽出
    • 感情認識
    • 複数人話者の抽出とサマリー
    • 発言箇所の元データ(録音ファイル)との紐付け
 __
(祭) ∧ ∧
 Y  ( ゚Д゚)
 Φ[_ソ__y_l〉     Transcribeダ ワッショイ
    |_|_|
    し'´J

Amazon Transcribeとは

音声データや動画データは今まで、我々が経験したことのない速度で増加している。

  • 音声
    • コールセンター
    • 会議
  • 動画
    • ブロードキャストTV
    • オンデマンドビデオ
    • ソーシャルメディア

これらデータをテキスト化することで、顧客動向の推察、より大きなアクセス、グローバルな展開、ターゲット広告、検索要素としての活用が期待できる。

Amazon Transcribeは、フルマネージドで継続的に改善される自動音声認識サービスであり、音声データから自動的に正確なスクリプトを作成する。

特徴を挙げていく。

  • 動画も音声も両方認識可能
  • S3がデータストアとして採用
  • 正確なタイムスタンプを抽出
  • 句読点の認識も可能
  • 英語とスペイン語に対応。その他の言語も随時追加されていく
  • 複数人を識別可能
  • カスタムした固有名詞の設定が可能

様々なデータ形式に対応。8khz以上の音声データで正確に認識することができ、ファイル形式として、FLAC、WAV、MP3、MP4に対応している。

ユースケース紹介

コールセンターでのユースケース。8Khzの音声データで高精度な言語認識が可能。Amazon Transcribeで高精度に認識させて、Amazon QuickSightで可視化する。

オンデマンドビデオやブロードキャスト動画の字幕などに活用する方法もある。タイムスタンプを認識させることで、動画とテキストデータを紐付けて、字幕として出力することができる。

会議でのユースケース。会議データをS3に格納しておき、テキスト化。テキストをElasticsearchでインデックス化し、オンライン検索の検索結果として、抽出できるようにする。

実装上のチャレンジングな話

以下の点については、実装上非常に苦労した。大変だった。

  • ノイズが多い環境
  • 会話のノリやニュアンスの把握
  • 複数人の会話が噛み合った時の処理
  • 認識できない単語の処理
  • 方言
  • 獲得リソースの少ない言語の処理

Amazon Transcribeのデモ

このように、固有名詞とキーフレーズとそれに紐づく感情を認識して抽出することができる。

各単語の感情レベルはグラフ化される。ここでは、Positive、Negative、Neutral、mixedと分別して、感情を表す単語を集計している。

もちろんSDKも存在する。

お値段について。

  • 一秒あたり$0.0004。最低15秒以上の利用が必要
  • 最初の一年は1ヶ月あたり1時間までの無料枠有り
  • プレビュー期間は無料!

先行導入企業「ringDNA」での事例

ringDNAはエンタープライズ企業に向けたテレコミュニケーションプラットフォーマーだ。ここでは、弊社におけるAmazon Transcribeの活用方法を紹介する。

Amazon Transcribeを組み込んだ画面がこちらだ。オペレーターがユーザーから問い合わせを受けるコールセンターが舞台だ。青がオペレーター、赤がユーザーが喋っている箇所を表している。

キーワード部分に注目して欲しい。音声会話の中から自動的にキーワードを抽出しておくことができる。横に出ている数字は、その会話の中でその単語が出てきた回数だ。クリックすることにより、瞬時に音声データの該当箇所に飛ぶことができる。

右側には、全ての会話がテキストで書き起こされている。単語をクリックしたとき、すぐにこのキーワードの該当スクリプトの場所がハイライト表示される。

話者によるフィルタリングも可能だ。オペレーターかユーザーかを選択することで、会話で発生した単語をフィルタすることができる。

ringDNAでは、Amazon Transcribeを最大限利用し、よりエンパワーされたテレコミュニケーションツールを拡大させていく。AWSは偉大なパートナーだ。

(会場拍手)

濱田まとめ「使い方次第ではAWS利用の様々な夢が膨らむ」

音声データの書き起こしは今までもいくらかのソリューションがあった気がしますが、Amazonでもマネージドサービスとして提供されました。

最初発表を聞いたときは、音声データの書き起こし機能だけだと思っていたんですが、話者の特定機能や、感情認識などがかなり面白い使い方ができそうだなと思いました。

例えば、顧客対応した結果、ネガティブな単語が10語以上含まれていた場合は、上司に自動的にエスカレーションされるとか、会議で、いつもネガティブなことばっかり言っているやつを特定するとか(これは使い方がネガティブやけど!)

裏はもちろんAWSで、やり方次第では、SQS連携させたりLambda起動してみたり、このテキスト書き起こし機能だけではなく、AWSの他のサービスと組合せて考えると、できることは非常に多いのでは!?と楽しくなってきました。

公式ドキュメントはこちら:Amazon Transcribe – Automatic Speech Recognition - AWS

現在はまだプレビュー申込の段階なので、気になる人は取り急ぎ上のリンクからプレビューを申し込んでおきましょう。早く使えるようになるのが楽しみです。

それでは、今日はこのへんで。濱田でした。