オンプレミスとクラウド HPC のハイブリッド構成の優位性とは?京都大学大学院医学研究科 附属ゲノム医学センター様の事例から学ぶ

2024.06.20

オンプレミスのスパコンを持っているにもかかわらず、なぜクラウド(AWS)で HPC 環境を構築するのでしょうか? 今回は「京都大学大学院医学研究科 附属ゲノム医学センター」様との事例を通してハイブリッド構成のポイントを探ります。

はじめに

ゲノム情報を取り扱う研究機関におけるオンプレミスのスパコンと、クラウド HPC のハイブリッド構成を調査しました。 公開事例をもとにハイブリッド構成を選択した理由と、構成する上で考慮点をまとめています。 公開情報を元に理解を整理するために図解した構成図を載せています。正確性は担保できませんので参考程度にしてください。

京都大学大学院医学研究科 附属ゲノム医学センター様はハイブリッドクラウドシステムの設計についての論文を公開しています。また、AWS Summit 2023 の動画や講演資料も公開されています。これらの情報を基に、私の気になった点をまとめました。

「我々のハイブリッドクラウドシステムは参考となる良いスターティングポイントを提供する」というメッセージのとおり大変参考になりました。ぜひご一読ください。

Depending on the institution and country, on-premise computing resources, supercomputing systems, public clouds, network environments, and ethical constraints must be considered in system design and implementation. Nevertheless, our hybrid cloud system provides a good starting point for reference.

引用: Design and implementation of a hybrid cloud system for large-scale human genomic research | Human Genome Variation

事例概要

忙しい方向けに、1 行で課題と導入効果を説明します。

オンプレミス HPC 環境の課題

ヒトゲノム情報解析において超高速な解析が求められる一方で、オンプレミス HPC 環境では実行時間やメモリの制約の問題や、混雑時にはジョブがすぐに実行できないという課題があった。

ハイブリッドクラウド導入の効果

クラウド HPC 環境を導入し、クラウドへ拡張することでオンプレミス環境の制約を補完し、解析の柔軟性とスケーラビリティを向上させた。

ハイブリッドクラウド構成

ハイブリッドクラウド構成を図に書き起こしました。ジョブスケジューラはスパコンのメーカー依存で統一されていません。ジョブをサブミットする際の手順に多少違いはありますが、解析ソフトの実行環境は Singularity v3(現在の名前は Apptainer) で統一されています。

吹き出しの説明

  1. ジョブスケジューラ
  2. コンテナ
  3. ファイルシステム(ストレージ)

ハイブリッドクラウド にAWS を選定した理由

主に運用実績を重要視したようです。あとは AWS プロフェッショナルサービスを利用しているため、中期的なプロジェクトかつ、予算が比較的に潤沢にあったことが推察されます。

画像引用: ヒトゲノム情報統合解析に向けた京都大学ゲノム医学センターのハイブリッドクラウドシステム構築について

オンプレミス HPC 環境の特徴

オンプレミス HPC 環境は京大の他に東大、mdxと SINET 経由で接続されており、合計 4 システムが稼働しています。

役割

ヒトゲノム情報解析で超高速な解析が求められる解析パイプラインの実行。

長所

  • 計算リソース内で実行可能な提携解析を高速に実行

短所

  • 実行時間の上限があり、長時間の計算ができないシステムもある
  • ノード毎のジョブ実行では計算効率が悪いときもある
  • メモリ上限があり、一部のソフトウェアが実行できない
  • 混雑時にはジョブをすぐに実行できない

クラウド HPC 環境の特徴

京大から SINET 経由の Direct Connect(閉域網)で接続するクラウド HPC 環境と、インターネット経由で接続するクラウド HPC 環境の合計 2 システム稼働しています。

役割

ヒトゲノム情報解析で汎用的な解析が求められる解析パイプラインの実行。

長所

  • 複雑な依存関係を持つ解析パイプラインを容易に実施可能
  • オンプレミス環境が混雑している場合でも大規模な解析ができる

短所

  • 計算ノードやストレージのコストがオンプレミス環境に比べて高い

ハイブリッドクラウド構成の工夫ポイント

解析ソフトの実行環境はコンテナを利用

複数の HPC 環境間で解析パイプラインを統一するため、Singularity バージョン 3 を使用しています。再現性を確保し、異なる HPC 環境でのソフトウェアバージョンの違いを回避しています。 Singularity イメージは 複数の HPC 環境間であらかじめ定義されたディレクトリパスに保存しています。これにより、異なる HPC 環境間で解析パイプラインの修正コストを最小限に抑えることができました。

考察

Singularity イメージの保存先のパスを統一させておくのは良いアイディアですね。これは参考になりました。

ParallelCluster で Singularity を利用されているので、Singularity 改め Apptainer の実装方法は以下のブログで紹介している内容と概ね同じかと思われます。

スポットインスタンス強制終了対策

計算ノードのコストを抑えるためにスポットインスタンスを利用しています。スポットインスタンスの強制終了対策として、カスタムスクリプトを用意しています。前のジョブで処理済みの部分をスキップし、再開できるようになっています。

考察

おそらくスポットインスタンス強制終了 2 分前の通知をフックにカスタムスクリプトを実行し、中断ポイントを作成(中間ファイルの退避など)してから強制終了されます。新たなジョブをサブミットした際に中断ポイントからの再開を実現している様子です。

一週間に渡る計算では、1 からの再実行だと解析結果を得るのが遅くなり、計算コストも再度かかります。安定して起動するオンデマンドだと計算リソースのコストが高くなるため、スポットインスタンスを活用し、中断・再開の機能を実装したと考えられます。

クラウドのストレージコストについて

オンプレミスのストレージシステムをパブリッククラウドへ移行するのは、まだ費用対効果が低いと考えています。

考察

ブロックストレージ(EBS)や FSx for Lustre は容量が多いと地味に値が張ります。最近登場した Mountpoint for Amazon S3 は、ゲノム解析のワークロードで特に有効に活用できるソリューションです。

解析ソフトがどのようにアクセスパターンでストレージへアクセスするかが肝ですが、上手に S3 を活用することでストレージコストの削減と解析実行の利便性の確保が可能です。すでに取り組まれているかもしれません。

おわりに

論文でハイブリッドクラウドの構成を発表いただいているのは大変ありがたい内容でした。現在、どのようにハイブリッドクラウドをご利用されているのか、使用感などを機会があればお話を伺ってみたいものです。

参考