メディア業界における Amazon Transcribe の活用事例 #AIM205 #reinvent

AWS re:Invent 2020

#Amazon Transcribe

#AWS Lambda

#AWS

大前諒祐

2020.12.18

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、大前です。

本記事は、AWS re:Invent 2020 のセッション、"Using Amazon Transcribe to make content searchable and accessible" のレポートとなります。

セッション情報

セッションタイトル

Using Amazon Transcribe to make content searchable and accessible

概要（機械翻訳）

メディアやエンターテイメントコンテンツは飛躍的に成長しています。このセッションでは、NASCARがAmazon Transcribeを使用して、自動ビデオ字幕を使ってユーザーのエンゲージメントを向上させている方法をご紹介します。Amazon Transcribe を使用して、ビデオやポッドキャストの正確なトランスクリプションをコスト効率よく作成し、コンテンツのカタログや検索用のメタデータを生成し、コンテンツを調整する方法をご紹介します。このセッションでは、Amazon Augmented AI (Amazon A2I) を使用して、トランスクリプションにヒューマンインザループの修正を追加する方法についても説明します。

スピーカー

Esther Lee（AWS）
Patrick Carroll（Director of Web Development - NASCAR Digital Media）

レポート

アジェンダ

メディア業界における AI サービスの需要
Amazon Transcribe が解決する事
メディア業界におけるユースケース
デモ
NASCAR における事例
まとめ

メディア業界における AI サービスの需要

以下３つの観点が述べられました

様々なコンテンツが大量に作成される現代において、隠れたコンテンツの価値を見つけるにはどうすれば良いか
- 検索性を高める為にはどうすれば良いか
多言語圏へのアプローチはどのようにすれば良いか
- 聴覚障害のある方のアクセシビリティの向上も求められる
コンテンツの収益化をどうするか
- ユーザに応じた広告の表示

上記の課題にアプローチする為の手段としてオーディオデータの解析が挙げられるが、オーディオデータをより効率よく扱うにはテキストへの変換が求められる

テキストへの変換方法としては転写が考えられるが、手作業では遅く、スケーラビリティに乏しい

Amazon Transcribe が実現する事

Amazon Transcribe は、上記の問題を解決してくれる

自動音声認識 AI サービスが認識した音声をテキスト化してくれるサービス
マネージドサービスである為、ビジネスに集中できる
- 音声認識モデルの構築や管理は AWS に任せられる
ユーザは音声をサービスに送信するだけでテキストを受け取る事ができる
ライブストリーミングにも対応

例えば、3時間近い映画を手動でローカライズするには 6週間もの日時がかかり、さらに人件費も必要となる。一方で、Amazon Transcribe や Amazon translate といった機械翻訳サービスを利用する事で、コストを抑えつつ、短時間で作業を完了する事が実現できる。

Amazon transcribe は様々な機能を提供している

30以上の言語やアクセントに対応
句読点や大文字/小文字の正規化
スピーカーやチャンネルのラベル付け
各単語へのタイムスタンプ付与
単語レベルでの信頼度スコアの表示
自動言語識別機能
カスタム発音の設定

字幕生成への活用や、不要なワードの自動削除などを実現

メディア業界におけるユースケース

4つのユースケース

検索と発見
- メタデータを使用してユーザの検索履歴や視聴履歴に基づいたレコメンドが可能に
字幕やローカリゼーション
- transcribe によってタイムスタンプ付きの字幕を生成し、動画と一緒に表示する事が可能
- コンテンツをより多くのユーザに届ける事ができる
  - ローカライズされた動画の視聴時間が増加したという統計も出ている
コンテンツの収益化
- メタデータとユーザの興味に基づいてコンテンツをラベリングする事で、広告インベントリを自動的に生成する事が可能に
- より最適化された広告配信が可能に
コンプライアンス
- 対象とするユーザに応じて、不適切なコンテンツを自動的に検出する事が可能に

デモ

オーディオやビデオコンテンツ用のサーバレス処理アーキテクチャを使用

S3 にコンテンツをアップロードする事で Lambda がトリガーされ、Amazon Transcribe や Amazon Rekognition、Amazon Translate、Amazon Cmprehend といった各 AI サービスによって処理が行われる

最終的に、抽出されたメタデータを Amazon Elastic Search で検索する事が可能。

（上記サービスを実際に使用したデモ映像が流れました。実際のデモ映像に興味ある方は本セッションのアーカイブをご視聴ください）

文字起こしの精度を確保する上で、人によるレビューが必要となるケースがある
Amazon Augmented AI（Amazon A2I）によって人を介入させるフローを実現することも可能

私は Amazon A2I というサービス（？）については初耳だったのですが、人を介したレビューシステムの構築などを簡単に実現する事ができるそうです。面白そうですね。

Amazon Augmented AI (Amazon A2I) で、人による ML 予測のレビューに必要なワークフローを簡単に構築できます。Amazon A2I はすべての開発者に人によるレビューを提供し、人を介したレビューシステムの構築や多数のレビュー担当者の管理に伴う画一的で面倒な作業から開放されます。