メディア業界における Amazon Transcribe の活用事例 #AIM205 #reinvent

2020.12.18

こんにちは、大前です。

本記事は、AWS re:Invent 2020 のセッション、"Using Amazon Transcribe to make content searchable and accessible" のレポートとなります。

セッション情報

セッションタイトル

Using Amazon Transcribe to make content searchable and accessible

概要(機械翻訳)

メディアやエンターテイメントコンテンツは飛躍的に成長しています。このセッションでは、NASCARがAmazon Transcribeを使用して、自動ビデオ字幕を使ってユーザーのエンゲージメントを向上させている方法をご紹介します。Amazon Transcribe を使用して、ビデオやポッドキャストの正確なトランスクリプションをコスト効率よく作成し、コンテンツのカタログや検索用のメタデータを生成し、コンテンツを調整する方法をご紹介します。このセッションでは、Amazon Augmented AI (Amazon A2I) を使用して、トランスクリプションにヒューマンインザループの修正を追加する方法についても説明します。

スピーカー

  • Esther Lee(AWS)
  • Patrick Carroll(Director of Web Development - NASCAR Digital Media)

レポート

アジェンダ

  • メディア業界における AI サービスの需要
  • Amazon Transcribe が解決する事
  • メディア業界におけるユースケース
  • デモ
  • NASCAR における事例
  • まとめ

メディア業界における AI サービスの需要

以下3つの観点が述べられました

  • 様々なコンテンツが大量に作成される現代において、隠れたコンテンツの価値を見つけるにはどうすれば良いか
    • 検索性を高める為にはどうすれば良いか
  • 多言語圏へのアプローチはどのようにすれば良いか
    • 聴覚障害のある方のアクセシビリティの向上も求められる
  • コンテンツの収益化をどうするか
    • ユーザに応じた広告の表示

上記の課題にアプローチする為の手段としてオーディオデータの解析が挙げられるが、オーディオデータをより効率よく扱うにはテキストへの変換が求められる

テキストへの変換方法としては転写が考えられるが、手作業では遅く、スケーラビリティに乏しい

Amazon Transcribe が実現する事

Amazon Transcribe は、上記の問題を解決してくれる

  • 自動音声認識 AI サービスが認識した音声をテキスト化してくれるサービス
  • マネージドサービスである為、ビジネスに集中できる
    • 音声認識モデルの構築や管理は AWS に任せられる
  • ユーザは音声をサービスに送信するだけでテキストを受け取る事ができる
  • ライブストリーミングにも対応

例えば、3時間近い映画を手動でローカライズするには 6週間もの日時がかかり、さらに人件費も必要となる。 一方で、Amazon Transcribe や Amazon translate といった機械翻訳サービスを利用する事で、コストを抑えつつ、短時間で作業を完了する事が実現できる。

Amazon transcribe は様々な機能を提供している

  • 30以上の言語やアクセントに対応
  • 句読点や大文字/小文字の正規化
  • スピーカーやチャンネルのラベル付け
  • 各単語へのタイムスタンプ付与
  • 単語レベルでの信頼度スコアの表示
  • 自動言語識別機能
  • カスタム発音の設定

字幕生成への活用や、不要なワードの自動削除などを実現

メディア業界におけるユースケース

4つのユースケース

  • 検索と発見
    • メタデータを使用してユーザの検索履歴や視聴履歴に基づいたレコメンドが可能に
  • 字幕やローカリゼーション
    • transcribe によってタイムスタンプ付きの字幕を生成し、動画と一緒に表示する事が可能
    • コンテンツをより多くのユーザに届ける事ができる
      • ローカライズされた動画の視聴時間が増加したという統計も出ている
  • コンテンツの収益化
    • メタデータとユーザの興味に基づいてコンテンツをラベリングする事で、広告インベントリを自動的に生成する事が可能に
    • より最適化された広告配信が可能に
  • コンプライアンス
    • 対象とするユーザに応じて、不適切なコンテンツを自動的に検出する事が可能に

デモ

オーディオやビデオコンテンツ用のサーバレス処理アーキテクチャを使用

S3 にコンテンツをアップロードする事で Lambda がトリガーされ、Amazon Transcribe や Amazon Rekognition、Amazon Translate、Amazon Cmprehend といった各 AI サービスによって処理が行われる

最終的に、抽出されたメタデータを Amazon Elastic Search で検索する事が可能。

(上記サービスを実際に使用したデモ映像が流れました。実際のデモ映像に興味ある方は本セッションのアーカイブをご視聴ください)

  • 文字起こしの精度を確保する上で、人によるレビューが必要となるケースがある
  • Amazon Augmented AI(Amazon A2I) によって人を介入させるフローを実現することも可能

私は Amazon A2I というサービス(?)については初耳だったのですが、人を介したレビューシステムの構築などを簡単に実現する事ができるそうです。面白そうですね。

Amazon Augmented AI (Amazon A2I) で、人による ML 予測のレビューに必要なワークフローを簡単に構築できます。Amazon A2I はすべての開発者に人によるレビューを提供し、人を介したレビューシステムの構築や多数のレビュー担当者の管理に伴う画一的で面倒な作業から開放されます。

NASCAR における事例

NASCAR とは

  • 6つの大陸を跨って行われる国際的なビッグイベント
  • 29の言語、195ヶ国以上で4億世帯以上が参加
  • 1200以上のレースを行う
  • 多言語サポートを提供している


抱えていた課題

  • 毎月アップロードされる数百本の動画に自動的にキャプションをつけるツールを求めていた
  • 多言語に対応している必要もあった


様々なツールやソリューションを評価した結果、Amazon Transcribe の使用を決めた

  • 費用対効果が高い
  • 柔軟性に優れている


作成した仕組み

  • 動画ファイルを S3 にアップロード
  • アップロードを契機に Lambda を起動
  • MediaConvert で音声ファイルを抽出
  • 抽出した音声ファイルを Amazon Transcribe に渡す
  • Transcribe から返却された JSON から vtt ファイル(字幕ファイル)を作成
  • 人(編集チーム)によるレビュー機能を設けた
    • これによって、より高い精度を実現


(上記サービスを実際に使用したサンプル映像が紹介されました。NASCAR の作成したソリューションに興味ある方は本セッションのアーカイブをご視聴ください)


これからのロードマップ

  • サイトの多言語化
    • 現在は各サイトが単一の言語しか対応していない
    • これを多言語化したい
  • 精度の向上
    • カスタム言語モデルの使用
    • 編集チームによる手動作業がさらに削減されることを期待
  • リアルタイムコンテンツに対するキャプション追加

まとめ

AWS が提供する OSS ソリューションの紹介

私自身もいくつかのソリューションを触った事がありますが、本当にサクッとソリューションに触れる事ができるので、非常におすすめです。触ったことのないソリューションもあるので、触ってみたいと思います。

おわりに

AWS re:Invent 2020 のセッション、"Using Amazon Transcribe to make content searchable and accessible" のレポートでした。

なかなか AI サービスに触れる機会は少ないのですが、うまく活用できると面白い事が色々できそうなので、触っていきたいと思います。


以上、AWS 事業本部の大前でした。

参考