【レポート】AWS Media Service と 機械学習ソリューションを利用した動画コンテンツの価値向上 #AWSSummit

AWS Summit 2018 Tokyo

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

清水です。最終日を迎えましたAWS Summit Tokyo 2018!本エントリでは最終日の14:00-14:40に行われたセッション「AWS Media Service と 機械学習ソリューションを利用した動画コンテンツの価値向上」をライブストリーミングにて視聴しましたのでレポートします。

スピーカーは安司 仁 氏(アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 ソリューションアーキテクト)です。

セッション情報は下記となります。 昨年末リリースしたプロフェッショナル向けビデオサービス群 AWS Media Services(AMS)はすでに東京リージョンでも利用可能になりました。本セッションでは AMS の概要と、近年進歩が著しい人工知能(AI)、機械学習(Machine Learning、ML)、深層学習(Deep Learning)といった AWS の ML ソリューション群と組み合わせた際のビデオサービスワークフローをご紹介します。AWS のテクノロジーをコンテンツ価値向上にどう役立てることが出来るのか Demo を交えてご紹介します。 https://www.awssummit.tokyo/tokyo_session/session/

レポート

  • AWS Media Servicesと機械学習ソリューションを用いた動画コンテンツの価値向上について紹介
    • 動画コンテンツの利用価値を自動的に高める
    • マネージドサービスで動画分析
    • 帰宅後すぐに試せる

使用するサービスの概要

動画の価値を上げる

  • 内包する情報を絞り出し活用
    • コンテンツオーナー、動画の魅力アップ、再利用可能に
    • 視聴者、シーンや出演者でコンテンツを探す、動画に内包された情報を抽出、活用する
    • 時間、シーン、写っているもの

利用する主なサービス

  • Amazon Rekognition
  • AWS Lambda
  • AWS Elemental MediaConvert
  • AWS Elemental MediaLive
  • すべてマネージドサービス

Amazon Rekognition

  • 深層学習に基づく画像、動画認識サービス
  • アプリケーションに画像、動画認識機能を簡単に追加可能
  • Amazon Rekongtion Image
    • 画像認識
  • Amazon Rekognition Video
    • 動画認識
  • メディア処理での利用方法
    • コンテンツに何/誰がいつ映っているかメタ情報抽出、など
  • ファイル要件
    • フォーマットやサイズの制限があるので、注意する
  • 動画の取得形式
    • ファイルとライブストリーム
      • ファイルはAWS Elemental MediaConvet
      • ライブストリームはAWS Elemental MediaLive

AWS Elemental MediaConvert

  • フルマネージドなトランスコードサービス
  • プロフェッショナルグレードのビデオ処理サービス
  • Amazon Rekognitionのフォーマットに合うように変換を行う

AWS Elemental MediaLive

  • フルマネージドのライブエンコードサービス
  • ライブコンテンツのフォーマット・サイズを変換

メディアワークフローでのAmazon Rekognitionの活用

  • メディアワークフロー内でのML活用ポイント
    • コンテンツ索引とメタデータ作成
    • メタデータを利用したコンテンツ抽出

コンテンツの索引付けとメタデータ生成

検索可能なメタデータをビデオ・アーカイブに追加する

  • 課題
    • メタデータ付与したい
    • 手入力を削減してコスト削減
  • 解決策
    • MediaConvertを使用してフレーム画像を抽出
    • Rekognitionを使用して画像分析、メタデータ抽出
  • MediaConvetを使用して、ビデオからフレーム画像を生成、画像内の物体、有名人を検知し、動画に何が映っているかを抽出
    • MediaConvetのファイル出力はHLSではなくファイルで
    • フレームレートで1/5にして、5秒毎に画像抽出を行う
    • 抽出したJPEGからRekognitionによって有名人検索、Lambdaでつくる
    • RekognitionからJSON形式で結果が返る

有名人がどの時点に登場するかを抽出、記録する

  • 課題
    • どのエピソードのどのシーンに誰がいるのか記録したい
    • ファイルが大きい
  • 解決策
    • MediaConvetでコンテンツ圧縮
    • Rekognitiono Videoを使って、どのシーンに何が映っているかを検出
  • MediaConvetを使用し、ファイルを圧縮、RekognionVideoで分析
    • MediaConvet コンテナをmp4に指定する、h.264を指定
    • Rekognition Videoで分析。非同期処理になる
    • JSONでタイムスタンプとともに結果が返る

デモムービー

  • 入出力のS3バケット作成
  • 解析対象動画を入力バケットに保存
  • MediaConvertでJPEG出力の設定、動画の変換
  • LambdaとRekognitionを連携して、分析実行
    • LambdaでRekognition用のテンプレートを利用する
    • 動画処理の場合は、Lambdaのタイムアウト時間を長めにする

メタデータを利用したコンテンツ抽出

特定の人物を含むビデオクリップだけをトランスコードする

  • 課題
    • 特定の俳優の出演シーンを含むプロモーションクリップの作成
    • ファイル大きい
  • 解決策
    • Rekognition Videoで俳優を検出
    • MediaConvetで入力クリップでクリッピング可能
  • MediaConvertのクリッピング機能
    • 動画内の特定の箇所だけをトランスコード可能(In-Out)

ライブ配信における機械学習の活用

  • 特定シーン検出、自動クリッピング
  • アイスホッケーの試合、得点板の情報を利用、得点が変わったタイミングでクリップ作成
    • Rekognitionで文字認識
    • 前の20秒を取り出して、クリップ作成
    • 複数のカメラの映像を利用
  • 機械学習の結果を利用して、ユーザの視聴体験を増やすことが、マネージドサービスのみで容易に実現可能
  • スポーツハイライトシーンクリッピング概要
  • 商用サービスでやっている事例も既にある
    • Sky News Royal Wedding: Who's Who
      • ロイヤルウェディングの動画配信サービス
      • ライブ配信、VOD配信、機械学習でゲストのテロップを付与
      • SkyNews Who's Whoで検索するとまだサービスを参照できる
  • カスタムメディア分析ソリューション
    • Media ServicesではS3に出力するので、他のAI/Mソリューションとの連携も容易
    • 文字に起こして解析することや、SageMakerの利用なども
    • マネージドサービスとカスタムソリューションの組み合わせを

まとめ

  • マネージドサービスの利用で容易に既存のワークフローに機械学習の機能を組み込める
  • アーカイブコンテンツの活用頻度を高める
  • ライブ配信をよりインタラクティブに
  • サービスの早期立ち上げ、価値向上にご活用を

感想

AWS Media Servicesでの動画処理とAmazon Rekognitionでの認識処理を組み合わせることで、動画の解析、メタデータ付与、そして動画処理を行い、動画コンテンツ価値向上が実現できる、ということが実感できました。これまで同様の処理を行うことを考えた場合、人力により多大な工数がかかったり、また動画の処理自体にも多くのリソースや時間が割かれてしまっていたかと思います。AWSのサービスを組み合わせることでこれらがすぐに実現できること、またフルマネージドサービスで実現できることもすごいなと思いました。