【レポート】スケールするサーバレスエンコーディングによるディープラーニングベースの動画分析 #reinvent #ARC311

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

清水です。AWS re:Invent2017にてブレイクアウトセッション「ARC311-R - [REPEAT] Serverless Encoding at Scale with Content Moderation via Deep Learning-Based Video Analysis 」を聴講してきたのでレポートします。(人気のあるブレイクアウトセッションの再公演、リピートになりますね。)

セッションの概要は以下の通りです。

With more companies entering the OTT market, AWS sees customer demand for ways to decrease the time it takes to get content into their users’ hands, while increasing operational efficiency and lowering IT infrastructure costs. Using deep learning-based image analysis can provide users actionable feedback about the content they view. When combining a new serverless architecture approach using Amazon Elastic Transcoder with AWS’ deep learning technology Amazon Rekognition, companies can provide near real-time, on-demand encoding of assets and content moderation. This session covers serverless versus virtualized infrastructure, handling encoding jobs with AWS Lambda, encoding dynamic media assets with Elastic Transcoder (or Elemental), moderating content with Amazon Rekognition, and storing metadata with Amazon DynamoDB. We also provide a demo to test a production-ready serverless encoding architecture.

登壇者は以下の方です。

  • Paul Roberts - Senior Solutions Architect, Amazon Web Services

レポート

Line TVビジネスモデルの改革

  • Netflix
    • 年間コンテンツ費、1位
    • エミー賞のノミネーション数でも2位
  • 従来のTVネットワークよりもストリーミング向けネットワークの方がエネミー賞ノミネートが多い、今後もストリーミング向け放送の方が規模が大きくなる

伝統的なトランスコーディングアーキテクチャ

  • オンデマンド、もしくはクラウドでも同様
  • ファイルをストレージに配置
  • エンコーディングファームにてエンコード

スケールするサーバレスなトランスコード

構成に必要なAWSサービスを整理

Amazon Rekognition
  • ディープラーニングベースの画像解析サービス
    • オブジェクトとシーン検出
      • 画像中にどのようなオブジェクトが含まれているか
        • 例えば花とか椅子とかWaterとか
      • 画像中にどのようなシーンが含まれているか
        • 室内であるとか、野外であるとか
    • 顔の分析
      • 男性/女性
      • 表情、笑っているとか、
      • 瞳がひらいている
    • 顔の比較 − 同一人物であるか
    • 有名人の認識
    • 画像中のテキスト分析
AWS Lambda
  • サーバ管理が不要なコンピュートサービス
    • コード持ち込み可能
      • Node.js, Java Python, C#
      • ライブラリも持ち込み可能
    • シンプルなリソースモデル
      • 128MBから1.5GBでの選択
      • CPUとネットワークは比例分配
    • フレキシブルな使用
      • 同期か非同期
      • 他のAWSサービスとの統合
    • フレキシブルなオーソライゼーション
      • リソースやVPCへのアクセスを許可できる
      • ファンクション呼び出しの細かな制御
  • イベントドリブンコード
    • 様々なイベントソースと統合可能
Amazon Elastic Transcoder
  • クラウドでのメディアトランスコードサービス
  • 多様な入力フォーマットに対応
  • MP4, WebM(VP8, VP9), FLV, アニメーションGIF、XDCAMなど
  • HLS、MPEG-DASH、SmoothによるAdaptive Bitrate Streamingをサポート
  • HLSとSmooth StreamingにはPlayReady DRMが利用可能
  • ウォーターマーク、キャプションをサポート
  • サムネイル作成、クリップ作成
  • SNSでのジョブ状態通知
  • AES-128を使ったHLSコンテンツの暗号化
  • Amazon Elastic Transocderを使ったベーシックなトランスコードパイプライン
AWS Elemental MediaConvertの利用
  • クラウドでのメディアトランスコーディングサービス
  • 放送品質の機能
  • 信頼性が高く管理が容易
  • 多数の入力コーデックをサポート
  • 多くの出力コーデックをサポート − 使った分だけの支払い
  • AWS Elemental Media Convertを使ったベーシックなトランスコーディングパイプライン
Amazon DynamoDB
  • クラウドでのフルマネージドなデータベース・サービス
  • 迅速で一貫したパフォーマンス
  • 高いスケーラビリティ
  • フレキシブル
  • イベント駆動プログラミング
  • きめ細かなアクセス制御

サービスをつなげて、サーバレスな機械学習トランスコーディングシステムを構成

  • サーバレスエンコーディングプラットフォームのBenefits
    • On-demandリソース
    • スケールアウトするコンピューティング
    • サーバ管理はなし
    • アイドル状態にのキャパシティもなし
    • 高可用性な設計
    • AWS AIサービスとのシンプルな統合
  • ビデオフレームからのメタデータ抽出
    • 顔の特徴検出
    • 感情検出
    • 性別の検出
    • 目の一と状態の検出
    • アダルトコンテンツの検出
    • ビデオメタデータからプログラムでコンテンツを決定
  • Amazon Rekognition はCLIで呼び出しも可能
  • サーバーレスのパイプラインワークフロー
    • S3のファイルをLambdaからElastic Transcoderで処理してサムネイル画像を作成
    • サムネイル画像に対してLambdaを発火、Rekognitionで解析、結果をDynamoDBへ
    • Amazon Elastic Transocderを使用した場合
    • AWS Elemental MediaConvertを使用した場合

感想

Amazon Elastic Transcoderまたは先日発表された新サービスのAWS Elemental MediaConvertを使い動画のサムネイル画像を作成、その画像をAmazon Rekognitionの入力に用いてディープラーニングによる認識を行う、というものでした。これらを連携させるのにLambda、そしてDyanmoDBを使用しすべてサーバレスで行えるのがすごいですね。また本セッションはラスベガス現地時間の11/28(火)以前に行われたセッションのリピートとして11/29(水)お昼に行われたセッションでしたが、午前中のKeynoteではAmazon RekognitionのVideo analysisも発表されました。このサービスとの関連性にも注目していきたいと思います。