[レポート] CMP302: AWSでのハイパフォーマンスコンピューティング: インフラの制約を無くしイノベーションを加速 #reinvent

本記事はre:Invent 2018のセッション"CMP302: High Performance Computing on AWS: Driving Innovation without Infrastructure Constraints"のレポートです。 最近のAWSでのHPC関連のアップデートとユーザ企業の講演を通して、HPCの計算資源としてAWSを利用することの利点を紹介するセッションでした。

概要

In today’s environment of increasingly large data sets and resource-intensive algorithmic processing, the challenge of HPC includes keeping pace with the demands of researchers, scientists, engineers, and creative professionals so they can rapidly produce high-value answers to complex questions. AWS HPC solutions deliver significant leaps in compute performance, memory capacity and bandwidth and I/O scalability. The highly customizable computing platform and robust partner ecosystem enable your staff to imagine new approaches so they can fail forward faster, delivering more answers to more questions without the need for costly, on-premises upgrades. This session provides an overview of HPC capabilities on AWS, describes the newest generations of accelerated computing instances, as well as highlighting customer and partner use-cases across industries. Attendees will also learn how the steadily increasing interest in running HPC workloads on the cloud can be combined with the advances in AI/ML to make it a catalyst for sustained innovation in these industries.

スピーカー

  • Ian Colle - GM, AWS Batch and HPC
  • Ken Robbins - Executive Director of Engineering, Novartis Institutes for BioMedical Research

アジェンダ

  • Innovations in HPC infrastructure: What's new for HPC on AWS
  • Innovations enabled by HPC infrastructure: Customer case studies
  • Democratizing HPC: Ease of use, partners, collaboration

HPCインフラのイノベーション: AWSのHPCに関する新機能

最近のAWSでのHPC環境におけるイノベーションとして、以下が紹介されました。 参考までにre:Invent 2018で発表されたものにNEW!を付けてあります。

  • Amazon FSx for Lustre NEW! (参考)
  • Z1d instance (参考)
  • C5n instance NEW! (参考)
  • P3dn instance NEW! (参考)
  • Elastic Fabric Adapter NEW! (参考)
  • AWS ParallelCluster (参考)
  • AWS Batchでのマルチノード並列ジョブサポート (公式)

最近だけでもこれだけ多くのアップデートがなされています。インスタンス自体やファイルシステム、ネットワークについての性能面での強化だけでなく、 AWS Parallel Clusterのようにより使いやすくする方面でもアップデートが行われています。

※AWS Batchのマルチノード並列ジョブについてはまだ試せていないので、時間を見つけて試したいところです。

AWSでのHPCによって可能になるイノベーション

製薬企業ノバルティスの研究所であるNovartis Institutes for BioMedical Research (NIBR) の Ken Robbins 氏より事例の発表がありました。

製薬・創薬の分野では、"in silico (シリコンの中で=コンピュータで)"と"in vitro (ガラスの中で=試験管で)"という言葉があるくらい、コンピュータシミュレーションが多用されます。 NIBRでも様々なシミュレーションにコンピュータが活用されており、例えば細胞の画像解析では、細胞あたり1500ほどの特徴について、AWS Batchを利用して並列で処理を行うことで数時間で処理できているとのことです。必要な時に必要なだけスケールアップできること、Dockerを利用して様々なシミュレーションに適応できることもポイントなようです。

また、NIBRでは、オンプレミスでもHPC環境を持っていながらAWSのHPC環境も使っているとのことで、 その選択を含めた戦略について紹介がありました。詳細はRobbins氏のブログに記載されていますが、セッションではその中の意思決定のツリーが紹介されていました。以下の要素を検討して意思決定しているとのことでした。

  • (オンプレミスにしかない)特殊なリソースが必要か
  • ライセンス上の制限
  • データの所在
  • 性能要件
  • コストと成果

HPCの民主化

「HPCの民主化」と題して、より幅広くHPCが使われるための事柄が述べられました。

  • より使いやすく
    • 一般に受け入れられるにはユーザー体験の向上が重要だとして、使いやすいユーザーインターフェイスを提供するalcesflightの例などが紹介されていました。
  • パートナー
    • Amazonは売るものを全て自分では作らない、AWSも同じだ、ということで、幅広い企業とのパートナーシップが紹介されました。
  • コラボレーション
    • AWSであれば世界中に計算資源があり、それがグローバルなネットワークで接続しているので、大陸を超えたコラボレーションも容易にできる、としていました。

まとめと雑感

最後に、なぜAWSでHPCなのかとして、以下のようなスライドでまとめられました。 フレキシブルな構成と実質的に無制限のスケーラビリティにより、HPCのワークロードに応じてインフラストラクチャを拡張および縮小することができる、としています。

HPCを利用する企業において、必要な時に必要なだけの計算資源が欲しい、というのは昔からの課題でした。 自分がかつて所属していた会社では、スーパーコンピュータの計算時間を切り売りする形でオンデマンドに計算資源を提供するビジネスが検討されていたりもしたのですが、現在のAWSはそれをより洗練された形で実現していて、HPCがより一般に利用されるものになっていることを感じました。