【レポート】AWS Media Service と機械学習ソリューションを利用した動画コンテンツの価値向上 #AWSSummit

AWS Summit Tokyo 2018

2018.06.01

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

清水です。最終日を迎えましたAWS Summit Tokyo 2018！本エントリでは最終日の14:00-14:40に行われたセッション「AWS Media Service と機械学習ソリューションを利用した動画コンテンツの価値向上」をライブストリーミングにて視聴しましたのでレポートします。

スピーカーは安司仁氏（アマゾンウェブサービスジャパン株式会社技術統括本部ソリューションアーキテクト）です。

セッション情報は下記となります。昨年末リリースしたプロフェッショナル向けビデオサービス群 AWS Media Services（AMS）はすでに東京リージョンでも利用可能になりました。本セッションでは AMS の概要と、近年進歩が著しい人工知能（AI）、機械学習（Machine Learning、ML）、深層学習（Deep Learning）といった AWS の ML ソリューション群と組み合わせた際のビデオサービスワークフローをご紹介します。AWS のテクノロジーをコンテンツ価値向上にどう役立てることが出来るのか Demo を交えてご紹介します。 https://www.awssummit.tokyo/tokyo_session/session/

レポート

AWS Media Servicesと機械学習ソリューションを用いた動画コンテンツの価値向上について紹介
- 動画コンテンツの利用価値を自動的に高める
- マネージドサービスで動画分析
- 帰宅後すぐに試せる

使用するサービスの概要

動画の価値を上げる

内包する情報を絞り出し活用
- コンテンツオーナー、動画の魅力アップ、再利用可能に
- 視聴者、シーンや出演者でコンテンツを探す、動画に内包された情報を抽出、活用する
- 時間、シーン、写っているもの

利用する主なサービス

Amazon Rekognition
AWS Lambda
AWS Elemental MediaConvert
AWS Elemental MediaLive
すべてマネージドサービス

Amazon Rekognition

深層学習に基づく画像、動画認識サービス
アプリケーションに画像、動画認識機能を簡単に追加可能
Amazon Rekongtion Image
- 画像認識
Amazon Rekognition Video
- 動画認識
メディア処理での利用方法
- コンテンツに何/誰がいつ映っているかメタ情報抽出、など
ファイル要件
- フォーマットやサイズの制限があるので、注意する
動画の取得形式
- ファイルとライブストリーム
  - ファイルはAWS Elemental MediaConvet
  - ライブストリームはAWS Elemental MediaLive

AWS Elemental MediaConvert

フルマネージドなトランスコードサービス
プロフェッショナルグレードのビデオ処理サービス
Amazon Rekognitionのフォーマットに合うように変換を行う

AWS Elemental MediaLive

フルマネージドのライブエンコードサービス
ライブコンテンツのフォーマット・サイズを変換

メディアワークフローでのAmazon Rekognitionの活用

メディアワークフロー内でのML活用ポイント
- コンテンツ索引とメタデータ作成
- メタデータを利用したコンテンツ抽出

コンテンツの索引付けとメタデータ生成

検索可能なメタデータをビデオ・アーカイブに追加する

課題
- メタデータ付与したい
- 手入力を削減してコスト削減
解決策
- MediaConvertを使用してフレーム画像を抽出
- Rekognitionを使用して画像分析、メタデータ抽出
MediaConvetを使用して、ビデオからフレーム画像を生成、画像内の物体、有名人を検知し、動画に何が映っているかを抽出
- MediaConvetのファイル出力はHLSではなくファイルで
- フレームレートで1/5にして、5秒毎に画像抽出を行う
- 抽出したJPEGからRekognitionによって有名人検索、Lambdaでつくる
- RekognitionからJSON形式で結果が返る

有名人がどの時点に登場するかを抽出、記録する

課題
- どのエピソードのどのシーンに誰がいるのか記録したい
- ファイルが大きい
解決策
- MediaConvetでコンテンツ圧縮
- Rekognitiono Videoを使って、どのシーンに何が映っているかを検出
MediaConvetを使用し、ファイルを圧縮、RekognionVideoで分析
- MediaConvet コンテナをmp4に指定する、h.264を指定
- Rekognition Videoで分析。非同期処理になる
- JSONでタイムスタンプとともに結果が返る

デモムービー

入出力のS3バケット作成
解析対象動画を入力バケットに保存
MediaConvertでJPEG出力の設定、動画の変換
LambdaとRekognitionを連携して、分析実行
- LambdaでRekognition用のテンプレートを利用する
- 動画処理の場合は、Lambdaのタイムアウト時間を長めにする

メタデータを利用したコンテンツ抽出

特定の人物を含むビデオクリップだけをトランスコードする

課題
- 特定の俳優の出演シーンを含むプロモーションクリップの作成
- ファイル大きい
解決策
- Rekognition Videoで俳優を検出
- MediaConvetで入力クリップでクリッピング可能
MediaConvertのクリッピング機能
- 動画内の特定の箇所だけをトランスコード可能(In-Out)

ライブ配信における機械学習の活用

特定シーン検出、自動クリッピング
アイスホッケーの試合、得点板の情報を利用、得点が変わったタイミングでクリップ作成
- Rekognitionで文字認識
- 前の20秒を取り出して、クリップ作成
- 複数のカメラの映像を利用
機械学習の結果を利用して、ユーザの視聴体験を増やすことが、マネージドサービスのみで容易に実現可能
スポーツハイライトシーンクリッピング概要
- Elemental Live -> MediaStore -> MediaLive -> ライブ用としてMediaPackage、分析用としてS3
- ライブ配信と同時に、分析も進める
- MediaLiveで複数の出力を設定
- サンプルコードがGitHub上で公開されている
  - GitHub - aws-samples/aws-elemental-instant-video-highlights: Instant Video Highlights: Build Your Own Frame-Accurate Live-to-VOD Workflow with Image Recognition
商用サービスでやっている事例も既にある
- Sky News Royal Wedding: Who's Who
  - ロイヤルウェディングの動画配信サービス
  - ライブ配信、VOD配信、機械学習でゲストのテロップを付与
  - SkyNews Who's Whoで検索するとまだサービスを参照できる
カスタムメディア分析ソリューション
- Media ServicesではS3に出力するので、他のAI/Mソリューションとの連携も容易
- 文字に起こして解析することや、SageMakerの利用なども
- マネージドサービスとカスタムソリューションの組み合わせを

まとめ

マネージドサービスの利用で容易に既存のワークフローに機械学習の機能を組み込める
アーカイブコンテンツの活用頻度を高める
ライブ配信をよりインタラクティブに
サービスの早期立ち上げ、価値向上にご活用を

感想

AWS Media Servicesでの動画処理とAmazon Rekognitionでの認識処理を組み合わせることで、動画の解析、メタデータ付与、そして動画処理を行い、動画コンテンツ価値向上が実現できる、ということが実感できました。これまで同様の処理を行うことを考えた場合、人力により多大な工数がかかったり、また動画の処理自体にも多くのリソースや時間が割かれてしまっていたかと思います。AWSのサービスを組み合わせることでこれらがすぐに実現できること、またフルマネージドサービスで実現できることもすごいなと思いました。