[レポート] CMP202: AWS 〝Deadline〟レンダリングファームと Spot インスタンスで CG スタジオをスケールする #reinvent
先日開催されました AWS re:Invent 2018 より、11/27 (現地時間)に行われた下記セッションをレポートします。セッションの拝聴はできなかったため、公開された動画と資料をもとにお送りします(掲載したスクリーンショットは全て資料スライドからのものになります)。
セッションタイトル
概要
セッション概要より抄訳:
もしあなたの 3DCG レンダリングパイプラインを、ほぼ無制限に拡張できるとしたら? AWS EC2 スポットインスタンスと AWS Thinkbox Deadline は、あなたの VFX / CG レンダリングパイプラインの拡張を手助けします。ハリウッド映像プロダクションがどのように彼らの業務パイプラインにAWSを統合し、AWS EC2 によって柔軟性とスケーラビリティを現実のものにしているのか。このセッションではスケーラブルでコスト効率の良いコンピューティングのために、レンダリング管理ツール「Deadline」と EC2 スポットインスタンスの組み合わせにフォーカスします。
What if you could scale your rendering pipeline to near-limitless capacity- what would that mean for your studio? Learn how Amazon EC2 Spot and AWS Thinkbox Deadline can help scale your VFX and CG rendering pipeline, creating faster feedback cycles and most artist time focused on creating content, and how you can optimize your compute costs along the way. This session focuses on rendering workloads combining Deadline (an AWS rendering pipeline management tool) and Spot for scalable cost-effective computing. Find out how real customers working on Hollywood productions are integrating their pipelines with AWS to realize the elasticity and scale provided by Amazon EC2, as well as how they intend to leverage AWS in the future to scale their superpowers.
Speaker
- Chris Bond - Director of Product, Founder AWS Thinkbox
- Jason Fotter - CTO and Co-Founder, FuseFX
資料
内容
構成事例:ハイブリッドレンダリングパイプライン
- Deadline 10
- EC2 スポットインスタンス
- オンデマンドインスタンスに比べ最大 90% のコスト削減
- 耐障害性が高く、柔軟で、ステートレスなワークロードに適している
- 利用する上でのルール
- 同一のハードウェアとリソース
- 同一のインスタンスタイプとリージョン・AZ
- 価格設定は一度設定したら変更しない
- 多様性のあるスポットフリートで 100万コア/ 6万インスタンスのクラスタ
スポットインスタンスって強制的に停止させられるのでは?
- 過去三ヶ月で、強制停止は 5% ほど
- 95% は、タスク完了などの理由で手動で停止されている
事例:Milk Visual Effects
- 大規模海洋・乱気流 (Storm) シミュレーション
- 従来の課題
- 流体シミュレーションは多量の(1ショットで 100TBほどの)データが必要
- レンダリングソリューションのスケールが必須
- AWS Thinkbox Deadline と スポットインスタンス
- Deadline でオンプレミスとスポットインスタンスの両方を管理
- 1日に使用したCPUコアは、ピークで 130,000、平均で 80,000
- レンダリングは 10週間に及んだ
- スケーラビリティと柔軟性は、小さなチームがオンタイムでレンダリングジョブを終わらせることを可能にした
顧客の利用トレンド
- 初期の想定
- 中小スタジオ : ピークを抑えるために利用したい
- 大規模スタジオ : 1日のレンダリング時間が合算で 24h〜48hのレンダリングジョブ
- シミュレーションなどで、アーティストは絵が出るまでに 2〜3日待たなくてはならない
- キャパシティの確保
- レンダリングキャパシティが増えれば、より多くの時間を制作に当てられる
- 顧客はオンプレミスの「2倍から10倍」のキャパシティが欲しい
- Deadline 10 は、適切なインスタンスを選ぶ手助けになる
インフラストラクチャとソフトウェア
Deadline 10
- オンプレミス
- ユーザがジョブを実行(サブミット)
- アセット(素材)サーバ
- 必要なアセットをジョブプロパティに設定
- Deadlineが、現在クラウド上にない素材を判別し S3 へアップロード
- AWS との通信経路はセキュア(SSH)
- AWS クラウド
- アセットをS3から、各EC2インスタンスのEBSへコピー
- 各インスタンス(ノード)上でレンダリングを開始
インフラストラクチャの柔軟性
- Deadline 10
- Maya, 3DSMax との連携
- 各レンダーノード(インスタンス EBS)と S3 の同期
- Qumulo
- AWS File Storage | Cloud Storage Management Software | Qumulo
- WIndows / Linux クライアントの混在環境に対応
- 高性能クラウドファイルシステム
- Weka IO
- AWS Storage - High Performance Storage Purpose-Built for AWS | WekaIO
- HPC 向け、S3・Glacier 連携
- 高性能クラウドファイルシステム
- AWS Thinkbox Marketplace
- UBL : 利用料に応じた(Usage-based)ライセンス
- https://marketplace.thinkboxsoftware.com/
- AMI
- UBL に加えて BYOL もサポート
作業環境(Workstation)
- EC2 G3 グラフィックインスタンス
- NVIDIA Tesla M60 ベースの GPU を搭載
g3.4xlarge
で M60 の 50% の処理能力、2048 CUDA コアと 8GB メモリ- 複数の GPU で CUDA 処理とレンダリング
- ビューポート(画面)の性能強化には使えない
- 最大 4K 解像度 x 4面のモニタをサポート
- SIGGRAPH で Hudini と Photoshop のデモを行った
- レイテンシは概ね数 ms〜 数十 ms
- クラウドワークステーションでスタジオ構成をシンプルにする
事例:FuseFX
- Showreel - FuseFX (リンク先動画)
- ※会場で上映されたものとは若干差異があります
- スピーカー : Jason Fotter - CTO and Co-Founder, FuseFX
- TV向けの VFX スタジオ
- VFX 部門で過去 16回ノミネート、10回受賞
- 従業員 350人、3拠点、100以上のプロジェクト
TVコンテンツのトレンド
- これまでにない量のコンテンツ数
- 4K・HDR はもう当たり前
- VFX の技術的限界を押し上げ続けている
FuseFX のチャレンジ
- もっと社員を -> 達成
- もっと機材とソフトを -> 達成
- もっとレンダリングを -> 未達
- クラウドに活路を
クラウドへの拡張
- Deadline + Qumulo
- アセットの同期には内製ソフトウェア(NucleUS)
- DX経由
- 3拠点に拡張、1ヶ所(バンクーバー)は Linux
- 8月〜9月の最大利用数/日
- 22,000時間、929機器(オンプレミスの 3倍の規模)
事例:911 - Earthquake
- ※ 9-1-1 = 救急救命の現場をテーマにした TV ドラマシリーズ
- 3週間 / 187 ショット / うち 30 は大規模 CG ショット
- 実在のホテルをまるまる CG に置き換える
- ロングショット多用
- 複雑な高架道路
VFX レンダリングのためのストレージ
- キャパシティ
- IOPS
- 最も重要
- レイテンシ
- レンダーノードはストレージに直結
- アーキテクチャ依存
- スループット
- スループットの集約が重要
- Qumulo によるアップグレード
m4.16xlarge
x4 (HDD) -> x6 (SSD)- 38,000 IOPS -> 80,000 IOPS
- 3 GB/sec -> 15 GB/sec
まとめ - スタジオ拡張のためのキー
- ワークロードを見越す
- 「クラウドレンダリングレディ」な状態にする
- スポットインスタンスを使うときにはFleetを多様的にする
- インフラとソフトウェアを適切にスケールする
- ビジュアルワークステーションはスケールのもう一つのやり方
所感
グラフィカルレンダリング処理は、embarrassingly parallel(驚異的並列)ともいわれる計算能力集約型のタスクです。 言い換えると、タスクを処理しているプロセッサの数とタスクを完了するのに必要な処理時間との間に、直線的な関係があることを意味します。
こちらの AWS ブログ記事 にあるように、VFX / CG レンダリング処理は非常に大量のコンピュート能力を必要とします。同時に昨今の 4K 化などのことを考えると、必要となるメモリやストレージ能力も増加していくことになります。本セッションは re:Invent 2018 の翌週に東京で行われた SIGGRAPH Asia 2018 でも講演されたとのことで、AWS としてこの業界にどのようにコミットしているのかよく分かるセッションでした。スポットインスタンスの強制停止率が 5% 程という情報も興味深いものでしたね。
なお、本セッションの関連として下記セッションもレポートしていますので、あわせてご参照いただけると、より理解も深まるかと思います。