[レポート] HPC on AWS:インフラストラクチャーの制約に縛られないイノベーション #CMP204 #reinvent
はじめに
みなさま Xin chao !
本記事は、AWS re:Invent 2019 のセッション 「CMP204 HPC on AWS: Innovating without infrastructure constraints」 のレポートです。
セッション概要
セッション概要を和訳したものです。
ハイパフォーマンスコンピューティング (HPC) は、常に最も複雑な問題を解決することを目的としてきました。 しかし、あまりにも長い間、HPC アプリケーションとワークロードはインフラストラクチャの容量によって制約されてきました。 このセッションでは、クラウドで瞬時にアクセスできる実質的に無制限の容量とスケールが、研究者とエンジニアがイノベーションに取り組む方法にパラダイムシフトをどのようにもたらすかを強調します。 Formula 1 が AWS を使用して、2021 年の自動車設計の一部として複雑な計算流体力学 (CFD) シミュレーションを実行する方法を学びます。 また、Morgan Stanley のグリッドコンピューティングワークロードの AWS への移行について聞いてください。
スピーカー
- Ian Colle - General Manager, Amazon Web Services
- Barry Bolding - Director, Global HPC BD & GTM, Amazon Web Services
- Allison Nachtigal - Managing Director, Morgan Stanley
レポート
HPC が日々の生活に与えるインパクト
- あなたのコーヒーメーカー
- あなたが運転する車
- あなたが使用する燃料
- 天気予報
- リタイア後のポートフォリオ
- あなたが観ている映画
- あなたが服用している薬
HPC を実際に使用している人と管理者は何を望んでいるのか?
- 科学やエンジニアリング、リサーチなど、実際のタスク
- 同僚との世界的で安全なコラボレーション
- 迅速な結果の取得、必要に応じた繰り返し
- 発明、金銭的負担のない新しい試行
Working backward - the Amazonian way
「お客様の要望を翻訳する」
技術面での要望
- 強化されたコンピューティング
- 高速ネットワーク
- 高速でスケーラブルなストレージ
運用面での要望
- セキュリティ、データガバナンス
- コスト管理
- データ転送と管理
技術面の要望に注目
HPC 関連の更新されたポートフォリオ
- Amazon EC2 c5n インスタンス
- Elastic Fablic アダプター
- Amazon FSx for Lustre
- AWS ParallelCluster
継続的なテクノロジーの革新
2006 年時点の ”インスタンス”
- 1.7 GHz Xeon Processor
- 1.75 GB RAM
- 160 GB ローカルディスク
- 250 Mbps ネットワーク帯域
2019 年時点
- 4.0 GHz Xeon Proceccor
- 24 TiB RAM
- 60 TB NVMe ローカルストレージ
- 48 TB ローカルディスク
- 100 Gbps ネットワーク帯域
ハイパーバイザーの進化により、内部も高速化。 Nitro によりネットワークパフォーマンスも向上。
広くてディープなプラットフォームの選択肢
カテゴリー + 能力 + オプション = 270 以上のインスタンスタイプ
Amazon EC2 c5n インスタンス
カギとなる 2 つの HPC 関連機能
- 広帯域なメモリ
- 100G ネットワークスループット
AWS Nitro システムによる 100G 対応インスタンス ・・・ p3dn, i3en, m5n, r5n, g4dn
Formula 1 も活用
- CFD (=数値流体力学) を活用したマシンの空力開発
- 全走車が後続車に与える乱流の制御 など
Elastic Fabric アダプター
- レイテンシーの制約に関する神話が間違っていることを証明
Amazon FSx for Lustre
- 並列ファイルシステム
- SSD ベース
- 100 GB/s 以上のスループット
- 1,000,000 以上の IOPS
- 一貫したミリ秒より小さいレイテンシ
- 数 100,000 コアからの同時アクセスのサポート
AWS ParallelCluster
AWS サービスとの統合が容易
- Amazon FSx for Lustre
- Amazon EC2 インスタンス
- Elastic Fabric アダプター
- NICE DCV
- AWS Batch
HPC ワークロードを AWS に移行する最も大きなアドバンテージは、スケール と 俊敏性
データセキュリティとデータガバナンス
データの保管場所と誰がアクセスできるかの管理
- AWS KMS
- Amazon Macie
リソースが適切なアクセス権を持つようなきめ細かな ID とアクセスの制御
- AWS IAM
セキュリティの自動化と継続的な監視によるリスクの軽減
- Amazon Inspector
- Amazon GuardDuty
- AWS CloudWatch
データ転送
複数の方法によるクラウドへのデータ移行とデータの管理
オンプレミス環境 → S3
- AWS Snowball
- AWS Storage Gateway
- AWS Direct Connect
- 上記 3 サービス + AWS DataSync
S3 → HPC cluster (作業中のデータ)
- Amazon FSx for Lustre
S3 → AI / ML / DL サービス (長期保管)
- S3 IA / Glacier
異なるコンピューティングおよびスループットキャラクターの HPC ワークロード
VOLKSWAGEN GROUP
- 強い結合性を持ったワークロード
illumina
- 弱い結合性を持ったワークロード
SCHRODINGER
- 加速されたコンピューティング
mulk
- 視覚化
Formula 1
- AI / ML
DigitalGlobe
- 大容量のデータ解析
HPC アプリケーションへのクラウド活用
- インフラストラクチャーの選択
- スケール
- 料金モデル
- 俊敏性
ワークフローアーキテクチャの再検討
インフラストラクチャーの選択
FEA Implicit
- M インスタンス
CFD
- C インスタンス
モデル製作
- GPU ベースのインスタンス
リモート視覚化
- GPU ベースのインスタンス
自分たちのアプリケーションに合った仁洙ふらストラクチャーを選択する
利用可能なスケールの活用
Western Digital では、1,000,000 vCPU を搭載したシングル HPC cludter 上での、2~3,000,000 のシミュレーションに要する時間が、EC2 スポットインスタンスの活用により大幅に短縮。
20 日間 → 8 時間
利用金モデル
スポット、オンデマンド、リザーブドインスタンスを組み合わせて活用する。
解決までの時間とスケールのコストのトレードオフを検討する。
コストとコスト管理
コスト (オンプレミス)
- コンピューティング費用
- ストレージ費用
コスト管理 (クラウド)
- AWS Budgets
- AWS Cost Explorer
産業を超えた HPC ワークロード
FRED HUTCH
- ライフサイエンス
Finra
- 金融サービス
bp
- オイル&ガス
AUTODESK
- 設計&エンジニアリング
MAXAR
- 気候&地球科学
drive.ai
- 自動運転
AWS での高パフォーマンスコンピューティング
- 設備投資、キャパシティ、テクノロジー の心配 → イノベーションへのフォーカス
- 何が可能なのかの根本的な再考