Titaniumを深く掘り下げる: Google Cloudの階層型オフロード・アーキテクチャ #GoogleCloudNext

Google のデータセンターを支える Titanium の詳細が聞けるセッションで非常に満足しました!

ウィスキー、シガー、パイプをこよなく愛する大栗です。

現在 Google Cloud Next '24 に参加しています。。その中で Google Cloud のデータセンターのパフォーマンスを支えるTitanium を深堀りするセッションがあったので参加してみました。個人的には最も期待しているセッションだったためレポートします。

なお Titanium は Google Cloud Next '23 で発表された Google Cloud データセンターのインフラストラクチャのパフォーマンスやセキュリティを支えるシステムです。

また、帰国して直ぐに Next '24 の最新情報をお届けする振り返り勉強会も開催します。是非現地で物理参加を!(オンライン配信も予定してます)

【4/17(水)ハイブリッド】クラスメソッドGoogle Cloud Next ’24ふり返り勉強会

Deep dive into Titanium: Google Cloud's tiered offload architecture

セッション概要

エンタープライズ アプリケーションから AI/ML まで、あらゆるインスタンスから最大限のパフォーマンス、信頼性、セキュリティを引き出すために、カスタム シリコン、セキュリティ マイクロコントローラ、階層型スケールアウト オフロードからなる最先端のシステム Titanium を構築しました。Titanium はすでに Google の最新コンピュート インスタンスのすべてを支えています。このセッションに参加して、なぜ Titanium が重要なのか、どのように機能するのか、お客様のワークロードでメリットを最大化する方法をご覧ください。

登壇者

  • Diwakar Gupta
    • Principal Engineer
    • Google Cloud
  • Salil Suri
    • Director, Product Management
    • Google Cloud

Titanium

Google の創業からの歴史を語り、データセンターを拡大し続けて200を超える国々でサービスを提供して、118ゾーンにまで成長していると言っています。

このデータセンターのスケーリングを支えるイノベーションとして、Jupiter network、Borg management、Colossus storage があります。これらのインフラを改善し続けて Titanium を組み込んでいます。

Titanium には複数の機能があり、セキュリティ、スケーラブルなファブリック、階層型オフロードです。Titanium の導入によって、CPU の応答性が向上し、全ての CPU 全てのマシン対応で動作するように設計されており、エンド ツー エンドのセキュリティなどを実装しています。

ファブリック(Jupiter)、ネットワーク オフロード、セキュリティ オフロードは Titanium オフロード プロセッサ(TOP)と呼ばれるものがあります。ホストの中に Titanium アダプタと Titan セキュリティ マイクロコントローラがあります。このシステムがデータセンター全体のオフロード システムを構成しています。Titanium ファブリックにより、最新世代の TPU は2.8倍高速に LLM をトレーニング可能になっています。

ストレージでは Colossus をフロントと分離します。CPU や GPU 等をスケールするにはホストとストレージの Titanium でオフロードします。これによって汎用の CPU で、650K IOPS を実現することができます。

Titanium ネットワーク オフロード プロセッサーが一番下にあり、ファブリックとは別にホストにハードウェアとソフトウェアを搭載して構成されています。我々の SDN ブレードは常にトラフィック使用量と閾値を監視しており、ある閾値以上のフローを確認するとホストからホストへプログラムを実行します。それによりパフォーマンスとスケラビリティのバランスを取ることができます。

Titanium のセキュリティのフィロソフィーについても触れています。

Titan は Google のサーバーの信頼の基点になるセキュリティハードウェアです。オンホスト アダプターは PCIe カードで暗号化などのパケット処理を全て実行し、ネットワークとストレージ機能を CPU からオフロードします。

ソフトウェアのアップデートでは、顧客のワークロードへ影響を与えないようにライブマイグレーションなどで移動させています。一部のファミリーではメンテナンス管理機能を導入して、最適なアプリケーションを提供してメンテナンスのスケジュールを管理し、ビジネスに最適な時間に実行できるようにしました。

重要なポイントは Google ではコンピューターのインフラ管理を最適化したということです。何十年にも渡ってコンピュータを構築した経験があり、そのリソースを使ってクラウドデータセンターにオフロードを提供しています。オフロードはあらゆるワークロードに対応でき、非常に優れた運用を行っています。そして最後にハードウェアとして設計されたセキュアなシステムは信頼性があるということです。

さいごに

昨年の Next '23 で Titanium が発表されましたが、どのようなものか詳細がわかっていなかったため非常に勉強になりました。Google では基礎的な内容をよく論文で公開をしていますが、カンファレンスではあまり発表していないと思っていました。今回 Titanium という非常に重要ですが、ユーザーからは見えない裏側を見ることができて非常に満足なセッションでした。

翌週 4月17日 (水)に振り返り勉強会を開催します!

Next '24 の翌週に帰国したばかりの現地参加メンバーが振り返り勉強会を行います!是非とも現地でご参加ください!

会場の入管管理のため参加申込が4月15日(月)までとなっているのでご注意ください!

【4/17(水)ハイブリッド】クラスメソッドGoogle Cloud Next ’24ふり返り勉強会