[レポート] HPC on AWS:インフラストラクチャーの制約に縛られないイノベーション #CMP204 #reinvent

本記事は、AWS re:Invent 2019 のセッション 「CMP204 HPC on AWS: Innovating without infrastructure constraints」 のレポートです。
2019.12.04

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

みなさま Xin chao !

本記事は、AWS re:Invent 2019 のセッション 「CMP204 HPC on AWS: Innovating without infrastructure constraints」 のレポートです。

 

セッション概要

セッション概要を和訳したものです。

ハイパフォーマンスコンピューティング (HPC) は、常に最も複雑な問題を解決することを目的としてきました。 しかし、あまりにも長い間、HPC アプリケーションとワークロードはインフラストラクチャの容量によって制約されてきました。 このセッションでは、クラウドで瞬時にアクセスできる実質的に無制限の容量とスケールが、研究者とエンジニアがイノベーションに取り組む方法にパラダイムシフトをどのようにもたらすかを強調します。 Formula 1 が AWS を使用して、2021 年の自動車設計の一部として複雑な計算流体力学 (CFD) シミュレーションを実行する方法を学びます。 また、Morgan Stanley のグリッドコンピューティングワークロードの AWS への移行について聞いてください。

 

スピーカー

  • Ian Colle - General Manager, Amazon Web Services
  • Barry Bolding - Director, Global HPC BD & GTM, Amazon Web Services
  • Allison Nachtigal - Managing Director, Morgan Stanley

 

レポート

HPC が日々の生活に与えるインパクト

  • あなたのコーヒーメーカー
  • あなたが運転する車
  • あなたが使用する燃料
  • 天気予報
  • リタイア後のポートフォリオ
  • あなたが観ている映画
  • あなたが服用している薬

HPC を実際に使用している人と管理者は何を望んでいるのか?

  • 科学やエンジニアリング、リサーチなど、実際のタスク
  • 同僚との世界的で安全なコラボレーション
  • 迅速な結果の取得、必要に応じた繰り返し
  • 発明、金銭的負担のない新しい試行

Working backward - the Amazonian way

「お客様の要望を翻訳する」

技術面での要望

  • 強化されたコンピューティング
  • 高速ネットワーク
  • 高速でスケーラブルなストレージ

運用面での要望

  • セキュリティ、データガバナンス
  • コスト管理
  • データ転送と管理

技術面の要望に注目

HPC 関連の更新されたポートフォリオ

  • Amazon EC2 c5n インスタンス
  • Elastic Fablic アダプター
  • Amazon FSx for Lustre
  • AWS ParallelCluster

継続的なテクノロジーの革新

2006 年時点の ”インスタンス”

  • 1.7 GHz Xeon Processor
  • 1.75 GB RAM
  • 160 GB ローカルディスク
  • 250 Mbps ネットワーク帯域

2019 年時点

  • 4.0 GHz Xeon Proceccor
  • 24 TiB RAM
  • 60 TB NVMe ローカルストレージ
  • 48 TB ローカルディスク
  • 100 Gbps ネットワーク帯域

ハイパーバイザーの進化により、内部も高速化。 Nitro によりネットワークパフォーマンスも向上。

広くてディープなプラットフォームの選択肢

カテゴリー + 能力 + オプション = 270 以上のインスタンスタイプ

Amazon EC2 c5n インスタンス

カギとなる 2 つの HPC 関連機能

  • 広帯域なメモリ
  • 100G ネットワークスループット

AWS Nitro システムによる 100G 対応インスタンス ・・・ p3dn, i3en, m5n, r5n, g4dn

Formula 1 も活用

  • CFD (=数値流体力学) を活用したマシンの空力開発
  • 全走車が後続車に与える乱流の制御 など

Elastic Fabric アダプター

  • レイテンシーの制約に関する神話が間違っていることを証明

Amazon FSx for Lustre

  • 並列ファイルシステム
  • SSD ベース
  • 100 GB/s 以上のスループット
  • 1,000,000 以上の IOPS
  • 一貫したミリ秒より小さいレイテンシ
  • 数 100,000 コアからの同時アクセスのサポート

AWS ParallelCluster

AWS サービスとの統合が容易

  • Amazon FSx for Lustre
  • Amazon EC2 インスタンス
  • Elastic Fabric アダプター
  • NICE DCV
  • AWS Batch

HPC ワークロードを AWS に移行する最も大きなアドバンテージは、スケール と 俊敏性

データセキュリティとデータガバナンス

データの保管場所と誰がアクセスできるかの管理

  • AWS KMS
  • Amazon Macie

リソースが適切なアクセス権を持つようなきめ細かな ID とアクセスの制御

  • AWS IAM

セキュリティの自動化と継続的な監視によるリスクの軽減

  • Amazon Inspector
  • Amazon GuardDuty
  • AWS CloudWatch

データ転送

複数の方法によるクラウドへのデータ移行とデータの管理

オンプレミス環境 → S3

  • AWS Snowball
  • AWS Storage Gateway
  • AWS Direct Connect
  • 上記 3 サービス + AWS DataSync

S3 → HPC cluster (作業中のデータ)

  • Amazon FSx for Lustre

S3 → AI / ML / DL サービス (長期保管)

  • S3 IA / Glacier

異なるコンピューティングおよびスループットキャラクターの HPC ワークロード

VOLKSWAGEN GROUP

  • 強い結合性を持ったワークロード

illumina

  • 弱い結合性を持ったワークロード

SCHRODINGER

  • 加速されたコンピューティング

mulk

  • 視覚化

Formula 1

  • AI / ML

DigitalGlobe

  • 大容量のデータ解析

HPC アプリケーションへのクラウド活用

  • インフラストラクチャーの選択
  • スケール
  • 料金モデル
  • 俊敏性

ワークフローアーキテクチャの再検討

インフラストラクチャーの選択

FEA Implicit

  • M インスタンス

CFD

  • C インスタンス

モデル製作

  • GPU ベースのインスタンス

リモート視覚化

  • GPU ベースのインスタンス

自分たちのアプリケーションに合った仁洙ふらストラクチャーを選択する

利用可能なスケールの活用

Western Digital では、1,000,000 vCPU を搭載したシングル HPC cludter 上での、2~3,000,000 のシミュレーションに要する時間が、EC2 スポットインスタンスの活用により大幅に短縮。

20 日間 → 8 時間

利用金モデル

スポット、オンデマンド、リザーブドインスタンスを組み合わせて活用する。

解決までの時間とスケールのコストのトレードオフを検討する。

コストとコスト管理

コスト (オンプレミス)

  • コンピューティング費用
  • ストレージ費用

コスト管理 (クラウド)

  • AWS Budgets
  • AWS Cost Explorer

産業を超えた HPC ワークロード

FRED HUTCH

  • ライフサイエンス

Finra

  • 金融サービス

bp

  • オイル&ガス

AUTODESK

  • 設計&エンジニアリング

MAXAR

  • 気候&地球科学

drive.ai

  • 自動運転

AWS での高パフォーマンスコンピューティング

  • 設備投資、キャパシティ、テクノロジー の心配 → イノベーションへのフォーカス
  • 何が可能なのかの根本的な再考

 

さいごに

以上、「CMP204 HPC on AWS: Innovating without infrastructure constraints」のセッション概要でした。
セッション内容に Formula 1 が取りあげられると聞いたので、普段ほとんど馴染みのない HPC 関連のセッションでしたが受講してみました。
もし、このブログを読んで内容に興味を持っていただいた方は、いずれ掲載されるであろう、本セッションの動画もぜひご覧になってください。