【レポート】 Amazon AIによるクラウドのメディアインテリジェンス #reinvent #MAE402

チャットボット特集

AWS re:Invent 2017

#AWS

#イベントレポート

佐々木大輔

2017.11.28

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

本記事はAWS re:Invent 2017のセッション「MAE402 - Media Intelligence for the Cloud with Amazon AI」のレポートです。

登壇者は以下のお二人。

Konstantin Wilms - Principal Solutions Architect, AWS
DEAN PERRINE - Vice President, Technical Solutions, FOX Networks

レポート

オポチュニティ

ペタバイトのイメージファイル郡。
100年以上コンテンツが蓄積されている。
どのようにメタデータを管理するか？

チャレンジ

ニッチなイメージカテゴリ。
低解像度と超高解像度の表示。
ノイズ除去。
コンテキストヒストリー。
高い精度での検索。

AWSに移行したもの

ストレージとアーカイブ。
編集及びパブリッシュ。
ビデオストリーミング。
その他Webアプリケーション。

Deep Learning-based Image Analysis

メディアインテリジェンスなパイプライン。
Ingest-Store-Analyze-Deliver。
ペタバイト以上でかつ様々なメディア形式のデータを収集。
中央ストレージに収集し、機械学習ベースの解析を行う。
オブジェクト認識及び背景の認識。

AWS Service Integration

画像処理実行をAWS Elemental MediaConvert及びMediaLiveにて実施。
アプリケーションはAPI Gateway + Lambdaにてサーバレスに構築。
中央ストレージはS3及びEFS．

Rekognitionの利用

Marketplaceから様々なAWS Partnersのサービスを利用。
サードパーティのソフトウェアも平行して利用している。

どのように機械学習をクラウド上で管理しているか。

機械学習のインフラはハード。
機械学習モデルのバージョニングが必要。
ゼロダウンタイムでの管理を行う。

National Geographicでの事例。

要求されたデザイン。
　世界中のチームが自己管理できるマルチテナント型。
　メタデータをAPIで管理。
　イメージのリサイズを自動で実行。
　グローバルにユニークなIDを付与。

グローバルなアセット

地球上の様々な場所で新しいメディアが撮られ、アップロードされる。
グローバルにユニークなFOX media IDを付与する。
アセットごとのバージョニングも実施。

キーとなるAWSコンポーネント

Lambdaを中心としたAWSサービススタック。
RekognitionのAPIを利用。

ソリューションアーキテクチャー

Step Functionで画像処理、Lambdaで解析。
API GatewayがUUID Generatorとなっている。
配信はCloudFront + S3。

Step Functionsのデザイン

LambdaはRekognitionによる画像解析に最適。
ステートマシンベースのStep functionsで画像処理が簡単にスケール。

Recognitionのサンプル

ウミガメやマウンテンゴリラを適切に認識する。

ラベルデータストレージ

DynamoDBとElasticsearch Service。
Recognitionの解析結果のJSONをマルチラベルにしてESに投入。
クライアントサイドではConficence Socreにてフィルタリング検索を可能に。

ユーザーエクスペリエンス

キーワードで検索すると対象の画像が表示。
画像をクリックするとその画像の解析結果がスコアとともに表示される。

次のステップ

ビデオへの対応。
アウトプットリクエストに対応するメタデータトランスフォーマー。
Webアプリケーション及びモバイルアプリケーションに統合。

ニッチな機械学習

犬とマフィンを見分けられるか？
　99%で犬だが98%でマフィン、こんなのわかる？
エッヂケースでは機械学習にかけるコストより人が見るコストのほうが安い。

画像自体の修正

アンシャープ化。CPUに高い負荷がかかる。
リペア。ImageMagick、OpenCV、scikit-imageなどで実行。
DeblurやRefocusなどの処理。
リサイズ。JPENGmini、PNGQuant、Mozjpeg。
35mm撮影写真で87メガピクセル必要な場合、350MBのRAW TIFFか50MBのLossless PNGとなる。

Amazon AI Stack

画像処理→Rekognition。
機械学習のフレームワークもインフラも揃ってる。
画像ファイルから場所、セレブ、大規模画像データセットによる分析。
GPU及びFPGAインスタンスを活用。P2&P3、G3、F1、X1。

アートに対するインテリジェンス

IMAGENETを利用。/
地域解析やニッチなイメージカテゴリを解析可能。
Amazon Mechanical Turkを使ったクラウドワーキングによる教師データの作成。
　スピードとコストであればシステムで自動化だが人のほうが正確な場合は多い。

復習 - 私達のイメージアーカイブについて。

カスタムコンセプト→RekognitionとspaCy。
特別なカテゴリ→転移学習。
白黒写真の加工→機械学習ベースでの色付け。
低解像度→ニューラルネット。
ニッチでヒスリカルなコンテンツ→クラウドワーキングの活用。

振り返り

これらは魔法の弾丸ではない。
特別なワークロードの実現にはDevOps、開発者、データサイエンティスト、そしてメディアのエコシステムが必要。
マネージドな機械学習とAIサービスによってニッチなユースケースに対応、コストの削減、開発および市場投入までの時間を短縮出来る。
マネージドサービスによって80%以上の問題を解決可能。
必要ならGPU、高いCPU，FPGAが利用可能。

さいごに

Amazon Mechanical Turkの利用など、機械学習を実サービスに利用している部分での知見を見ることが出来て面白かったです。