Google Cloud Next ’24 の振り返り勉強会で AI を支える裏側の機能について話しました #GoogleCloudNext

Next '24 の振り返り勉強会で生成 AI 「じゃない方」を話してきました。

ウィスキー、シガー、パイプをこよなく愛する大栗です。

4月17日に Google Cloud Next '24 の振り返り勉強会である【4/17(水)ハイブリッド】クラスメソッドGoogle Cloud Next ’24ふり返り勉強会に登壇してきたので、その内容をブログにまとめます。

Google Cloud の AI を支える裏側のインフラを垣間見る!

Google Cloud Next '24 の Opening Keynote では生成 AI に関する発表が大半だったのですが、それを支える裏方の発表に目を向けてみました。裏方だと思う発表には以下のようなものがあります。

  • コンピュート
    • TPU v5p
    • Axion
  • GPU
    • A3 Mega VMs (NVIDIA H100)
    • GB200 NVL72
  • ストレージ機能
    • Cloud Storage Fuse Caching
    • Parallelstore Caching
    • Hyperdisk ML

Expo 会場では実際にチップやハードウェアが展示されてました。

Google Axion

TPU / Cloud GPU / GDC

またストレージ機能に関するセッションがありました。

AI データパイプラインでは、データ プレパレーション、トレーニング、推論にストレージの課題があります。

ストレージに関する課題

その課題を解決するために、様々な機能を発表しています。

  • Cloud Storage Anywhere Cache:ゾーンごとのキャッシュで Cloud Storage のスループットを向上させる
  • Cloud Storage FUSE local cache:I/O のリード高速化
  • Accelerated Dataloader:Pytorch で GCS からデータを高速にロードする
  • Parallelstore:DAOS の並列ファイルシステム
  • Hyperdisk ML:AI に最適化されたブロック ストレージ

医療画像を使用した病理学の例では、以下のように開発中、トレーニング/チューニング中、更に大規模なトレーニング/チューニング中で、使用するサービスを使い分けて高速化や TCO の抑制を実現できています。

医療画像を使用した病理学での例

顧客事例としてウーブン・バイ・トヨタの方が登壇されて、Google Cloud のストレージサービスの活用について話されました。

コスト効率や GPU の確保のため AI プラットフォームをマルチクラウドで行っていますが、以前のクラウド トレーニング ソリューションでは、とあるクラウドベンダーが提供する Lustre サービスを利用していました。利用規模が大きくなるに連れ、多額の費用が発生し、ワークロードの増加によりデータ管理が難しくなってきました。

ウーブン・バイ・トヨタでの問題点

GPU の可用性確保のためマルチクラウド化を行い Google Cloud を使用しました。GKE で CSI ドライバを導入して Cloud Storage をマウントしましたが、Lustre を使用していないにも関わらず十分なパフォーマンスを発揮しました。そのためトレーニング費用を 40% 節約でき、データのコピーが費用になり管理の手間も低減しています。

Cloud Storage による解決

さらにプレビューの Cloud Storage FUSE Anywhere Cache を試すと 2回目のトレーニングでは 33% 高速になりました。

Google Cloud 全体を裏側で支える機能

Google のデータセンターを支える Titanium に関するセッションもありました。

Google のデータセンターは、ネットワークを Jupiter、リソース管理を Borg、ストレージを Colossus が支えています。

Google のデータセンターのイノベーションを支える

これらを更に進めるために Titanium があります。Titan セキュリティ、スケーラブルなファブリック、階層的オフロードを Titanium で実現しています。

Titanium の技術的概要

Titan は Google サーバーの信頼の基点となっており、オンホスト アダプターはファブリックを通したセキュアなコミュニケーションを支えます。新しい Arm CPU である Google Axion も Titanium に対応していますし、ハードウェアメンテナンス時に VM をライブマイグレーションしてサービスを停止させずにメンテナンスを行うなど、様々な面で役に立っています。

さいごに

有用ではあるのですが生成 AI ブームに少し食傷気味であったため、それ以外に目を向けた発表をしました。直接ではなくとも生成 AI を支えていてとても興味深かったです。

特に Titanium については、登壇セッションとして話されることが少ないため、一番期待していたセッションでした。しかし、現地の参加者は少なく録画もされていないということで世間とのギャップを感じてしまいました。(セッション自体はとても良い内容で満足しています)

まだまだ試せていない Next '24 の発表が多数あるので、今後も検証してブログを書いていきます。