[レポート] CMP202: AWS 〝Deadline〟レンダリングファームと Spot インスタンスで CG スタジオをスケールする #reinvent

先日開催された re:Invent 2018 よりレポートします。EC2 スポットインスタンスと CG レンダリング管理ツール「Deadline」の組み合わせによって、如何にコスト効率よくスケールするかの解説となっています。

AWS re:Invent 2018

#レポート

#スポットインスタンス

#Amazon EC2

#AWS

渡辺聖剛

2018.12.17

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

先日開催されました AWS re:Invent 2018 より、11/27 （現地時間）に行われた下記セッションをレポートします。セッションの拝聴はできなかったため、公開された動画と資料をもとにお送りします（掲載したスクリーンショットは全て資料スライドからのものになります）。

セッションタイトル

Scale Your Studio: Rendering with Spot and Deadline on AWS

概要

セッション概要より抄訳：
もしあなたの 3DCG レンダリングパイプラインを、ほぼ無制限に拡張できるとしたら？　AWS EC2 スポットインスタンスと AWS Thinkbox Deadline は、あなたの VFX / CG レンダリングパイプラインの拡張を手助けします。ハリウッド映像プロダクションがどのように彼らの業務パイプラインにAWSを統合し、AWS EC2 によって柔軟性とスケーラビリティを現実のものにしているのか。このセッションではスケーラブルでコスト効率の良いコンピューティングのために、レンダリング管理ツール「Deadline」と EC2 スポットインスタンスの組み合わせにフォーカスします。

What if you could scale your rendering pipeline to near-limitless capacity- what would that mean for your studio? Learn how Amazon EC2 Spot and AWS Thinkbox Deadline can help scale your VFX and CG rendering pipeline, creating faster feedback cycles and most artist time focused on creating content, and how you can optimize your compute costs along the way. This session focuses on rendering workloads combining Deadline (an AWS rendering pipeline management tool) and Spot for scalable cost-effective computing. Find out how real customers working on Hollywood productions are integrating their pipelines with AWS to realize the elasticity and scale provided by Amazon EC2, as well as how they intend to leverage AWS in the future to scale their superpowers.

Speaker

Chris Bond - Director of Product, Founder AWS Thinkbox
Jason Fotter - CTO and Co-Founder, FuseFX

資料

Scale Your Studio: Rendering with Spot and Deadline on AWS (CMP202) - AWS re:Invent 2018 from Amazon Web Services

内容

構成事例：ハイブリッドレンダリングパイプライン

Deadline 10
- レンダリング管理ツール
- Deadline 10 – AWSでレンダリングファーム起動 | Amazon Web Services ブログ
EC2 スポットインスタンス
- オンデマンドインスタンスに比べ最大 90% のコスト削減
- 耐障害性が高く、柔軟で、ステートレスなワークロードに適している
利用する上でのルール
- 同一のハードウェアとリソース
- 同一のインスタンスタイプとリージョン・AZ
- 価格設定は一度設定したら変更しない
- 多様性のあるスポットフリートで 100万コア/ 6万インスタンスのクラスタ

スポットインスタンスって強制的に停止させられるのでは？

過去三ヶ月で、強制停止は 5% ほど
95% は、タスク完了などの理由で手動で停止されている

事例：Milk Visual Effects

大規模海洋・乱気流 (Storm) シミュレーション
従来の課題
- 流体シミュレーションは多量の（1ショットで 100TBほどの）データが必要
- レンダリングソリューションのスケールが必須
AWS Thinkbox Deadline とスポットインスタンス
- Deadline でオンプレミスとスポットインスタンスの両方を管理
- 1日に使用したCPUコアは、ピークで 130,000、平均で 80,000
- レンダリングは 10週間に及んだ
スケーラビリティと柔軟性は、小さなチームがオンタイムでレンダリングジョブを終わらせることを可能にした

顧客の利用トレンド

初期の想定
- 中小スタジオ : ピークを抑えるために利用したい
- 大規模スタジオ : 1日のレンダリング時間が合算で 24h〜48hのレンダリングジョブ
  - シミュレーションなどで、アーティストは絵が出るまでに 2〜3日待たなくてはならない
キャパシティの確保
- レンダリングキャパシティが増えれば、より多くの時間を制作に当てられる
顧客はオンプレミスの「2倍から10倍」のキャパシティが欲しい

Deadline 10 は、適切なインスタンスを選ぶ手助けになる

インフラストラクチャとソフトウェア

Deadline 10

オンプレミス
- ユーザがジョブを実行（サブミット）
- アセット（素材）サーバ
  - 必要なアセットをジョブプロパティに設定
- Deadlineが、現在クラウド上にない素材を判別し S3 へアップロード
AWS との通信経路はセキュア（SSH）
AWS クラウド
- アセットをS3から、各EC2インスタンスのEBSへコピー
- 各インスタンス（ノード）上でレンダリングを開始

インフラストラクチャの柔軟性

Deadline 10
- Maya, 3DSMax との連携
- 各レンダーノード（インスタンス EBS）と S3 の同期
Qumulo
- AWS File Storage | Cloud Storage Management Software | Qumulo
- WIndows / Linux クライアントの混在環境に対応
- 高性能クラウドファイルシステム
Weka IO
- AWS Storage - High Performance Storage Purpose-Built for AWS | WekaIO
- HPC 向け、S3・Glacier 連携
- 高性能クラウドファイルシステム
AWS Thinkbox Marketplace
- UBL : 利用料に応じた（Usage-based）ライセンス
- https://marketplace.thinkboxsoftware.com/
AMI
- UBL に加えて BYOL もサポート

作業環境（Workstation）

EC2 G3 グラフィックインスタンス
- NVIDIA Tesla M60 ベースの GPU を搭載
- g3.4xlarge で M60 の 50% の処理能力、2048 CUDA コアと 8GB メモリ
- 複数の GPU で CUDA 処理とレンダリング
  - ビューポート（画面）の性能強化には使えない
- 最大 4K 解像度 x 4面のモニタをサポート
- SIGGRAPH で Hudini と Photoshop のデモを行った
レイテンシは概ね数 ms〜数十 ms
クラウドワークステーションでスタジオ構成をシンプルにする

事例：FuseFX

Showreel - FuseFX （リンク先動画）
- ※会場で上映されたものとは若干差異があります
スピーカー : Jason Fotter - CTO and Co-Founder, FuseFX
TV向けの VFX スタジオ
VFX 部門で過去 16回ノミネート、10回受賞
従業員 350人、3拠点、100以上のプロジェクト

TVコンテンツのトレンド

これまでにない量のコンテンツ数
4K・HDR はもう当たり前
VFX の技術的限界を押し上げ続けている

FuseFX のチャレンジ

もっと社員を -> 達成
もっと機材とソフトを -> 達成
もっとレンダリングを -> 未達
- クラウドに活路を

クラウドへの拡張

Deadline + Qumulo
アセットの同期には内製ソフトウェア（NucleUS）
DX経由
3拠点に拡張、1ヶ所（バンクーバー）は Linux
8月〜9月の最大利用数/日
- 22,000時間、929機器（オンプレミスの 3倍の規模）

事例：911 - Earthquake

※ 9-1-1 = 救急救命の現場をテーマにした TV ドラマシリーズ
- Watch 9-1-1 Season 2 Trailer - YouTube
- Making An Earthquake | Season 2 | 9-1-1 - YouTube
3週間 / 187 ショット / うち 30 は大規模 CG ショット
実在のホテルをまるまる CG に置き換える
ロングショット多用
複雑な高架道路

VFX レンダリングのためのストレージ

キャパシティ
IOPS
- 最も重要
レイテンシ
- レンダーノードはストレージに直結
- アーキテクチャ依存
スループット
- スループットの集約が重要
Qumulo によるアップグレード
- m4.16xlarge x4 (HDD) -> x6 (SSD)
- 38,000 IOPS -> 80,000 IOPS
- 3 GB/sec -> 15 GB/sec

まとめ - スタジオ拡張のためのキー

ワークロードを見越す
「クラウドレンダリングレディ」な状態にする
スポットインスタンスを使うときにはFleetを多様的にする
インフラとソフトウェアを適切にスケールする
ビジュアルワークステーションはスケールのもう一つのやり方

所感

グラフィカルレンダリング処理は、embarrassingly parallel（驚異的並列）ともいわれる計算能力集約型のタスクです。言い換えると、タスクを処理しているプロセッサの数とタスクを完了するのに必要な処理時間との間に、直線的な関係があることを意味します。

こちらの AWS ブログ記事にあるように、VFX / CG レンダリング処理は非常に大量のコンピュート能力を必要とします。同時に昨今の 4K 化などのことを考えると、必要となるメモリやストレージ能力も増加していくことになります。本セッションは re:Invent 2018 の翌週に東京で行われた SIGGRAPH Asia 2018 でも講演されたとのことで、AWS としてこの業界にどのようにコミットしているのかよく分かるセッションでした。スポットインスタンスの強制停止率が 5% 程という情報も興味深いものでしたね。

なお、本セッションの関連として下記セッションもレポートしていますので、あわせてご参照いただけると、より理解も深まるかと思います。

[レポート] MAE202: CGスタジオ on クラウド：AWS上でのコンテンツ制作 #reinvent

[レポート] CMP202: AWS 〝Deadline〟レンダリングファームと Spot インスタンスで CG スタジオをスケールする #reinvent

セッションタイトル

概要

Speaker

資料

内容

構成事例：ハイブリッドレンダリングパイプライン

スポットインスタンスって強制的に停止させられるのでは？

事例：Milk Visual Effects

顧客の利用トレンド

インフラストラクチャとソフトウェア

Deadline 10

インフラストラクチャの柔軟性

作業環境（Workstation）

事例：FuseFX

TVコンテンツのトレンド

FuseFX のチャレンジ

クラウドへの拡張

事例：911 - Earthquake

VFX レンダリングのためのストレージ

まとめ - スタジオ拡張のためのキー

所感

参考

関連記事

主なカテゴリ

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

お問い合わせ

運営会社