【レポート】AWS Media Service と 機械学習ソリューションを利用した動画コンテンツの価値向上 #AWSSummit
はじめに
清水です。最終日を迎えましたAWS Summit Tokyo 2018!本エントリでは最終日の14:00-14:40に行われたセッション「AWS Media Service と 機械学習ソリューションを利用した動画コンテンツの価値向上」をライブストリーミングにて視聴しましたのでレポートします。
スピーカーは安司 仁 氏(アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 ソリューションアーキテクト)です。
セッション情報は下記となります。
昨年末リリースしたプロフェッショナル向けビデオサービス群 AWS Media Services(AMS)はすでに東京リージョンでも利用可能になりました。本セッションでは AMS の概要と、近年進歩が著しい人工知能(AI)、機械学習(Machine Learning、ML)、深層学習(Deep Learning)といった AWS の ML ソリューション群と組み合わせた際のビデオサービスワークフローをご紹介します。AWS のテクノロジーをコンテンツ価値向上にどう役立てることが出来るのか Demo を交えてご紹介します。
https://www.awssummit.tokyo/tokyo_session/session/
レポート
- AWS Media Servicesと機械学習ソリューションを用いた動画コンテンツの価値向上について紹介
- 動画コンテンツの利用価値を自動的に高める
- マネージドサービスで動画分析
- 帰宅後すぐに試せる
使用するサービスの概要
動画の価値を上げる
- 内包する情報を絞り出し活用
- コンテンツオーナー、動画の魅力アップ、再利用可能に
- 視聴者、シーンや出演者でコンテンツを探す、動画に内包された情報を抽出、活用する
- 時間、シーン、写っているもの
利用する主なサービス
- Amazon Rekognition
- AWS Lambda
- AWS Elemental MediaConvert
- AWS Elemental MediaLive
- すべてマネージドサービス
Amazon Rekognition
- 深層学習に基づく画像、動画認識サービス
- アプリケーションに画像、動画認識機能を簡単に追加可能
- Amazon Rekongtion Image
- 画像認識
- Amazon Rekognition Video
- 動画認識
- メディア処理での利用方法
- コンテンツに何/誰がいつ映っているかメタ情報抽出、など
- ファイル要件
- フォーマットやサイズの制限があるので、注意する
- 動画の取得形式
- ファイルとライブストリーム
- ファイルはAWS Elemental MediaConvet
- ライブストリームはAWS Elemental MediaLive
- ファイルとライブストリーム
AWS Elemental MediaConvert
- フルマネージドなトランスコードサービス
- プロフェッショナルグレードのビデオ処理サービス
- Amazon Rekognitionのフォーマットに合うように変換を行う
AWS Elemental MediaLive
- フルマネージドのライブエンコードサービス
- ライブコンテンツのフォーマット・サイズを変換
メディアワークフローでのAmazon Rekognitionの活用
- メディアワークフロー内でのML活用ポイント
- コンテンツ索引とメタデータ作成
- メタデータを利用したコンテンツ抽出
コンテンツの索引付けとメタデータ生成
検索可能なメタデータをビデオ・アーカイブに追加する
- 課題
- メタデータ付与したい
- 手入力を削減してコスト削減
- 解決策
- MediaConvertを使用してフレーム画像を抽出
- Rekognitionを使用して画像分析、メタデータ抽出
- MediaConvetを使用して、ビデオからフレーム画像を生成、画像内の物体、有名人を検知し、動画に何が映っているかを抽出
- MediaConvetのファイル出力はHLSではなくファイルで
- フレームレートで1/5にして、5秒毎に画像抽出を行う
- 抽出したJPEGからRekognitionによって有名人検索、Lambdaでつくる
- RekognitionからJSON形式で結果が返る
有名人がどの時点に登場するかを抽出、記録する
- 課題
- どのエピソードのどのシーンに誰がいるのか記録したい
- ファイルが大きい
- 解決策
- MediaConvetでコンテンツ圧縮
- Rekognitiono Videoを使って、どのシーンに何が映っているかを検出
- MediaConvetを使用し、ファイルを圧縮、RekognionVideoで分析
- MediaConvet コンテナをmp4に指定する、h.264を指定
- Rekognition Videoで分析。非同期処理になる
- JSONでタイムスタンプとともに結果が返る
デモムービー
- 入出力のS3バケット作成
- 解析対象動画を入力バケットに保存
- MediaConvertでJPEG出力の設定、動画の変換
- LambdaとRekognitionを連携して、分析実行
- LambdaでRekognition用のテンプレートを利用する
- 動画処理の場合は、Lambdaのタイムアウト時間を長めにする
メタデータを利用したコンテンツ抽出
特定の人物を含むビデオクリップだけをトランスコードする
- 課題
- 特定の俳優の出演シーンを含むプロモーションクリップの作成
- ファイル大きい
- 解決策
- Rekognition Videoで俳優を検出
- MediaConvetで入力クリップでクリッピング可能
- MediaConvertのクリッピング機能
- 動画内の特定の箇所だけをトランスコード可能(In-Out)
ライブ配信における機械学習の活用
- 特定シーン検出、自動クリッピング
- アイスホッケーの試合、得点板の情報を利用、得点が変わったタイミングでクリップ作成
- Rekognitionで文字認識
- 前の20秒を取り出して、クリップ作成
- 複数のカメラの映像を利用
- 機械学習の結果を利用して、ユーザの視聴体験を増やすことが、マネージドサービスのみで容易に実現可能
- スポーツハイライトシーンクリッピング概要
- Elemental Live -> MediaStore -> MediaLive -> ライブ用としてMediaPackage、分析用としてS3
- ライブ配信と同時に、分析も進める
- MediaLiveで複数の出力を設定
- サンプルコードがGitHub上で公開されている
- 商用サービスでやっている事例も既にある
- Sky News Royal Wedding: Who's Who
- ロイヤルウェディングの動画配信サービス
- ライブ配信、VOD配信、機械学習でゲストのテロップを付与
- SkyNews Who's Whoで検索するとまだサービスを参照できる
- Sky News Royal Wedding: Who's Who
- カスタムメディア分析ソリューション
- Media ServicesではS3に出力するので、他のAI/Mソリューションとの連携も容易
- 文字に起こして解析することや、SageMakerの利用なども
- マネージドサービスとカスタムソリューションの組み合わせを
まとめ
- マネージドサービスの利用で容易に既存のワークフローに機械学習の機能を組み込める
- アーカイブコンテンツの活用頻度を高める
- ライブ配信をよりインタラクティブに
- サービスの早期立ち上げ、価値向上にご活用を
感想
AWS Media Servicesでの動画処理とAmazon Rekognitionでの認識処理を組み合わせることで、動画の解析、メタデータ付与、そして動画処理を行い、動画コンテンツ価値向上が実現できる、ということが実感できました。これまで同様の処理を行うことを考えた場合、人力により多大な工数がかかったり、また動画の処理自体にも多くのリソースや時間が割かれてしまっていたかと思います。AWSのサービスを組み合わせることでこれらがすぐに実現できること、またフルマネージドサービスで実現できることもすごいなと思いました。