【レポート】スケールするサーバレスエンコーディングによるディープラーニングベースの動画分析 #reinvent #ARC311

2017.12.01

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

清水です。AWS re:Invent2017にてブレイクアウトセッション「ARC311-R - [REPEAT] Serverless Encoding at Scale with Content Moderation via Deep Learning-Based Video Analysis 」を聴講してきたのでレポートします。（人気のあるブレイクアウトセッションの再公演、リピートになりますね。）

セッションの概要は以下の通りです。

With more companies entering the OTT market, AWS sees customer demand for ways to decrease the time it takes to get content into their users’ hands, while increasing operational efficiency and lowering IT infrastructure costs. Using deep learning-based image analysis can provide users actionable feedback about the content they view. When combining a new serverless architecture approach using Amazon Elastic Transcoder with AWS’ deep learning technology Amazon Rekognition, companies can provide near real-time, on-demand encoding of assets and content moderation. This session covers serverless versus virtualized infrastructure, handling encoding jobs with AWS Lambda, encoding dynamic media assets with Elastic Transcoder (or Elemental), moderating content with Amazon Rekognition, and storing metadata with Amazon DynamoDB. We also provide a demo to test a production-ready serverless encoding architecture.

登壇者は以下の方です。

Paul Roberts - Senior Solutions Architect, Amazon Web Services

レポート

Line TVビジネスモデルの改革

Netflix
- 年間コンテンツ費、１位
- エミー賞のノミネーション数でも２位
従来のTVネットワークよりもストリーミング向けネットワークの方がエネミー賞ノミネートが多い、今後もストリーミング向け放送の方が規模が大きくなる

伝統的なトランスコーディングアーキテクチャ

オンデマンド、もしくはクラウドでも同様
ファイルをストレージに配置
エンコーディングファームにてエンコード

スケールするサーバレスなトランスコード

構成に必要なAWSサービスを整理

Amazon Rekognition

ディープラーニングベースの画像解析サービス
- オブジェクトとシーン検出
  - 画像中にどのようなオブジェクトが含まれているか
    - 例えば花とか椅子とかWaterとか
  - 画像中にどのようなシーンが含まれているか
    - 室内であるとか、野外であるとか
- 顔の分析
  - 男性/女性
  - 表情、笑っているとか、
  - 瞳がひらいている
- 顔の比較 − 同一人物であるか
- 有名人の認識
- 画像中のテキスト分析

AWS Lambda

サーバ管理が不要なコンピュートサービス
- コード持ち込み可能
  - Node.js, Java Python, C#
  - ライブラリも持ち込み可能
- シンプルなリソースモデル
  - 128MBから1.5GBでの選択
  - CPUとネットワークは比例分配
- フレキシブルな使用
  - 同期か非同期
  - 他のAWSサービスとの統合
- フレキシブルなオーソライゼーション
  - リソースやVPCへのアクセスを許可できる
  - ファンクション呼び出しの細かな制御
イベントドリブンコード
- 様々なイベントソースと統合可能

Amazon Elastic Transcoder

クラウドでのメディアトランスコードサービス
多様な入力フォーマットに対応
MP4, WebM(VP8, VP9), FLV, アニメーションGIF、XDCAMなど
HLS、MPEG-DASH、SmoothによるAdaptive Bitrate Streamingをサポート
HLSとSmooth StreamingにはPlayReady DRMが利用可能
ウォーターマーク、キャプションをサポート
サムネイル作成、クリップ作成
SNSでのジョブ状態通知
AES-128を使ったHLSコンテンツの暗号化
Amazon Elastic Transocderを使ったベーシックなトランスコードパイプライン

AWS Elemental MediaConvertの利用

クラウドでのメディアトランスコーディングサービス
放送品質の機能
信頼性が高く管理が容易
多数の入力コーデックをサポート
多くの出力コーデックをサポート − 使った分だけの支払い
AWS Elemental Media Convertを使ったベーシックなトランスコーディングパイプライン

Amazon DynamoDB

クラウドでのフルマネージドなデータベース・サービス
迅速で一貫したパフォーマンス
高いスケーラビリティ
フレキシブル
イベント駆動プログラミング
きめ細かなアクセス制御

サービスをつなげて、サーバレスな機械学習トランスコーディングシステムを構成

サーバレスエンコーディングプラットフォームのBenefits
- On-demandリソース
- スケールアウトするコンピューティング
- サーバ管理はなし
- アイドル状態にのキャパシティもなし
- 高可用性な設計
- AWS AIサービスとのシンプルな統合
ビデオフレームからのメタデータ抽出
- 顔の特徴検出
- 感情検出
- 性別の検出
- 目の一と状態の検出
- アダルトコンテンツの検出
- ビデオメタデータからプログラムでコンテンツを決定
Amazon Rekognition はCLIで呼び出しも可能
サーバーレスのパイプラインワークフロー
- S3のファイルをLambdaからElastic Transcoderで処理してサムネイル画像を作成
- サムネイル画像に対してLambdaを発火、Rekognitionで解析、結果をDynamoDBへ
- Amazon Elastic Transocderを使用した場合
- AWS Elemental MediaConvertを使用した場合

感想

Amazon Elastic Transcoderまたは先日発表された新サービスのAWS Elemental MediaConvertを使い動画のサムネイル画像を作成、その画像をAmazon Rekognitionの入力に用いてディープラーニングによる認識を行う、というものでした。これらを連携させるのにLambda、そしてDyanmoDBを使用しすべてサーバレスで行えるのがすごいですね。また本セッションはラスベガス現地時間の11/28(火)以前に行われたセッションのリピートとして11/29(水)お昼に行われたセッションでしたが、午前中のKeynoteではAmazon RekognitionのVideo analysisも発表されました。このサービスとの関連性にも注目していきたいと思います。

【レポート】スケールするサーバレスエンコーディングによるディープラーニングベースの動画分析 #reinvent #ARC311

はじめに

レポート

Line TVビジネスモデルの改革

伝統的なトランスコーディングアーキテクチャ

スケールするサーバレスなトランスコード

構成に必要なAWSサービスを整理

Amazon Rekognition

AWS Lambda

Amazon Elastic Transcoder

AWS Elemental MediaConvertの利用

Amazon DynamoDB

サービスをつなげて、サーバレスな機械学習トランスコーディングシステムを構成

感想

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS