【レポート】AWS Media Service と機械学習ソリューションを利用した動画コンテンツの価値向上 #AWSSummit

AWS Summit Tokyo 2018

#AWS

#AWSメディアサービス

#イベントレポート

#機械学習

清水俊也

2018.06.01

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

清水です。最終日を迎えましたAWS Summit Tokyo 2018！本エントリでは最終日の14:00-14:40に行われたセッション「AWS Media Service と機械学習ソリューションを利用した動画コンテンツの価値向上」をライブストリーミングにて視聴しましたのでレポートします。

スピーカーは安司仁氏（アマゾンウェブサービスジャパン株式会社技術統括本部ソリューションアーキテクト）です。

セッション情報は下記となります。昨年末リリースしたプロフェッショナル向けビデオサービス群 AWS Media Services（AMS）はすでに東京リージョンでも利用可能になりました。本セッションでは AMS の概要と、近年進歩が著しい人工知能（AI）、機械学習（Machine Learning、ML）、深層学習（Deep Learning）といった AWS の ML ソリューション群と組み合わせた際のビデオサービスワークフローをご紹介します。AWS のテクノロジーをコンテンツ価値向上にどう役立てることが出来るのか Demo を交えてご紹介します。 https://www.awssummit.tokyo/tokyo_session/session/

レポート

AWS Media Servicesと機械学習ソリューションを用いた動画コンテンツの価値向上について紹介
- 動画コンテンツの利用価値を自動的に高める
- マネージドサービスで動画分析
- 帰宅後すぐに試せる

使用するサービスの概要

動画の価値を上げる

内包する情報を絞り出し活用
- コンテンツオーナー、動画の魅力アップ、再利用可能に
- 視聴者、シーンや出演者でコンテンツを探す、動画に内包された情報を抽出、活用する
- 時間、シーン、写っているもの

利用する主なサービス

Amazon Rekognition
AWS Lambda
AWS Elemental MediaConvert
AWS Elemental MediaLive
すべてマネージドサービス

Amazon Rekognition

深層学習に基づく画像、動画認識サービス
アプリケーションに画像、動画認識機能を簡単に追加可能
Amazon Rekongtion Image
- 画像認識
Amazon Rekognition Video
- 動画認識
メディア処理での利用方法
- コンテンツに何/誰がいつ映っているかメタ情報抽出、など
ファイル要件
- フォーマットやサイズの制限があるので、注意する
動画の取得形式
- ファイルとライブストリーム
  - ファイルはAWS Elemental MediaConvet
  - ライブストリームはAWS Elemental MediaLive

AWS Elemental MediaConvert

フルマネージドなトランスコードサービス
プロフェッショナルグレードのビデオ処理サービス
Amazon Rekognitionのフォーマットに合うように変換を行う

AWS Elemental MediaLive

フルマネージドのライブエンコードサービス
ライブコンテンツのフォーマット・サイズを変換

メディアワークフローでのAmazon Rekognitionの活用

メディアワークフロー内でのML活用ポイント
- コンテンツ索引とメタデータ作成
- メタデータを利用したコンテンツ抽出

コンテンツの索引付けとメタデータ生成

検索可能なメタデータをビデオ・アーカイブに追加する

課題
- メタデータ付与したい
- 手入力を削減してコスト削減
解決策
- MediaConvertを使用してフレーム画像を抽出
- Rekognitionを使用して画像分析、メタデータ抽出
MediaConvetを使用して、ビデオからフレーム画像を生成、画像内の物体、有名人を検知し、動画に何が映っているかを抽出
- MediaConvetのファイル出力はHLSではなくファイルで
- フレームレートで1/5にして、5秒毎に画像抽出を行う
- 抽出したJPEGからRekognitionによって有名人検索、Lambdaでつくる
- RekognitionからJSON形式で結果が返る

有名人がどの時点に登場するかを抽出、記録する

課題
- どのエピソードのどのシーンに誰がいるのか記録したい
- ファイルが大きい
解決策
- MediaConvetでコンテンツ圧縮
- Rekognitiono Videoを使って、どのシーンに何が映っているかを検出
MediaConvetを使用し、ファイルを圧縮、RekognionVideoで分析
- MediaConvet コンテナをmp4に指定する、h.264を指定
- Rekognition Videoで分析。非同期処理になる
- JSONでタイムスタンプとともに結果が返る

デモムービー

入出力のS3バケット作成
解析対象動画を入力バケットに保存
MediaConvertでJPEG出力の設定、動画の変換
LambdaとRekognitionを連携して、分析実行
- LambdaでRekognition用のテンプレートを利用する
- 動画処理の場合は、Lambdaのタイムアウト時間を長めにする

メタデータを利用したコンテンツ抽出

特定の人物を含むビデオクリップだけをトランスコードする

課題
- 特定の俳優の出演シーンを含むプロモーションクリップの作成
- ファイル大きい
解決策
- Rekognition Videoで俳優を検出
- MediaConvetで入力クリップでクリッピング可能
MediaConvertのクリッピング機能
- 動画内の特定の箇所だけをトランスコード可能(In-Out)

ライブ配信における機械学習の活用

特定シーン検出、自動クリッピング
アイスホッケーの試合、得点板の情報を利用、得点が変わったタイミングでクリップ作成
- Rekognitionで文字認識
- 前の20秒を取り出して、クリップ作成
- 複数のカメラの映像を利用
機械学習の結果を利用して、ユーザの視聴体験を増やすことが、マネージドサービスのみで容易に実現可能
スポーツハイライトシーンクリッピング概要
- Elemental Live -> MediaStore -> MediaLive -> ライブ用としてMediaPackage、分析用としてS3
- ライブ配信と同時に、分析も進める
- MediaLiveで複数の出力を設定
- サンプルコードがGitHub上で公開されている
  - GitHub - aws-samples/aws-elemental-instant-video-highlights: Instant Video Highlights: Build Your Own Frame-Accurate Live-to-VOD Workflow with Image Recognition
商用サービスでやっている事例も既にある
- Sky News Royal Wedding: Who's Who
  - ロイヤルウェディングの動画配信サービス
  - ライブ配信、VOD配信、機械学習でゲストのテロップを付与
  - SkyNews Who's Whoで検索するとまだサービスを参照できる
カスタムメディア分析ソリューション
- Media ServicesではS3に出力するので、他のAI/Mソリューションとの連携も容易
- 文字に起こして解析することや、SageMakerの利用なども
- マネージドサービスとカスタムソリューションの組み合わせを

まとめ

マネージドサービスの利用で容易に既存のワークフローに機械学習の機能を組み込める
アーカイブコンテンツの活用頻度を高める
ライブ配信をよりインタラクティブに
サービスの早期立ち上げ、価値向上にご活用を

感想

AWS Media Servicesでの動画処理とAmazon Rekognitionでの認識処理を組み合わせることで、動画の解析、メタデータ付与、そして動画処理を行い、動画コンテンツ価値向上が実現できる、ということが実感できました。これまで同様の処理を行うことを考えた場合、人力により多大な工数がかかったり、また動画の処理自体にも多くのリソースや時間が割かれてしまっていたかと思います。AWSのサービスを組み合わせることでこれらがすぐに実現できること、またフルマネージドサービスで実現できることもすごいなと思いました。

【レポート】AWS Media Service と機械学習ソリューションを利用した動画コンテンツの価値向上 #AWSSummit

はじめに

レポート

使用するサービスの概要

動画の価値を上げる

利用する主なサービス

Amazon Rekognition

AWS Elemental MediaConvert

AWS Elemental MediaLive

メディアワークフローでのAmazon Rekognitionの活用

コンテンツの索引付けとメタデータ生成

検索可能なメタデータをビデオ・アーカイブに追加する

有名人がどの時点に登場するかを抽出、記録する

デモムービー

メタデータを利用したコンテンツ抽出

特定の人物を含むビデオクリップだけをトランスコードする

ライブ配信における機械学習の活用

まとめ

感想

関連記事

主なカテゴリ

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

お問い合わせ

運営会社