[レポート]Monday Night Live #reinvent

はじめに

本レポートはAWS re:Invent 2019の初日、12/2(月)に開催されたMonday Night Liveのレポートです。

登壇者はVP of AWS Global Infrastructure and Customer SupportのPeter DeSantis。

レポート

・昨年のMonday Night Liveでは、コンピューティング最適化インスタンスタイプであるC5nを発表した。これは最大100Gbpsのネットワーク帯域を提供する最初のクラウドインスタンス。ローレイテンシーでスケーラブル、全ての可用性を備えている。いつでも好きなときに使える。どこかに電話する必要はない。不要になったらシャットダウンするだけ。

・HPCは私たちの生活のあらゆる側面に影響を与える。科学および工学の問題を解決するために使用される。たとえば、HPCは、より安全で燃料効率の良い車や飛行機を作成するために使用されり、病気の新しい治療法を見つけるために使用されたり、台風の進路を予測する重要な天気予報システムを支えている。
・HPCワークロードは、通常は1台のサーバーに収まらないほど大きくなる。そして、各サーバーが連携して処理するための高性能なネットワーキングを必要とする。サーバが分散すればするほど、ネットワークが重要になる。HPCワークロードを効果的にスケーリングするには、高スループット、低、潜在的なネットワークが必要。ネットワークのパフォーマンスが向上するほど、クラスターをより大きくスケーリングできる。
・HPCワークロードの処理のためにスーパーコンピューターが使われている。最新のスーパーコンピューターは、実際には単なるサーバーの集まり。数千または数万のサーバーの集合体。スーパーコンピューターのネットワークは独自のネットワークスタックで連携している。
・スーパーコンピュータはカスタムビルドであり、非常に高価。数億ドルかかるもある。数億ドルもかけるからこそ、数年は使い続けなければいけない。しかし、購入当初は優れたパーフォマンスを発揮するが、数年後には時代遅れになるかもしれない。

・数年前、この基調講演で、James Hamiltonがデータセンターネットワークのエキサイティングなトレンドについて話した。データセンターネットワークのコストの大半はスイッチングテクノロジー。そのため、独自のスイッチとスイッチ用ソフトウェアを構築した。セキュリティ、信頼性、運用パフォーマンスを向上させながら、コストを削減することができた。
・Jamesは、このアップデートによりネットワーキングのコストが削減され、サーバーで利用可能なネットワークが大幅に増強されると予測した。どうなったか?これを調べる1つの方法は、コンピューター最適化ファミリーのネットワークとCPUを比較すること。
・C3インスタンスとC5インスタンスをベンチマーク比較すると、同じ量のコンピューティングに対して3倍以上のネットワークパフォーマンスを提供している。CPUの改善以上にネットワークパフォーマンスがベンチマークに影響している。Jamesの予測通り。
・2013年、C3インスタンスが活躍してたこの世代のネットワークでは、460Tbpsのネットワークを備えており、約4600台の100Gbサーバーを接続するのに十分だった。このネットワークのレイテンシーは約12マイクロ秒。最新世代の配置グループネットワークは、10,600Tbpsのネットワークを備え、100,000台の100Gbサーバーを接続するのに十分。6年間で20倍以上になった。

・さて、ネットワークの確認は出来た。しかしプレイスメントネットワークは専用のネットワークではなく共有のネットワーク。HPCエンジニアは本当に共有ネットワークでパフォーマンスが出るのか懐疑的になる。
・レイテンシーを最小化し、パフォーマンスとスケーラビリティを最大化するためには優れたコントローラーが必要。
・Nitroコントローラーは、AWSオリジナルのチップを使用する特殊なハードウェアであり、パフォーマンスの向上、セキュリティの向上、独自のインスタンス機能など、多くの利点がある。

・次にネットワーク。多くのアプリケーションはTCPを利用している。TCPは素晴らしいプロトコルだが、汎用的な通信ライブラリであり、各アプリケーションごとに対して最適化されているわけではない。
・TCPはインターネットに最適化されており、ミリ秒単位での処理が前提。しかしデータセンター内で連携するアプリケーションはマイクロ秒単位で処理を行うため、コネクションが何度も発生する。HPCアプリケーションには特に向かない。
・このTCPの課題を解決するために提供したのがElastic Fabric Adapter(EFA)。EFAはAWSのデータセンターのネットワークとNitroに最適化されている。マイクロ秒単位のパケット損失や通信遅延を検出し、TCPよりも数桁高速に再送信できる。

・例えば、BIG ASSFANSは、オンプレミスでの6時間かかっていたシミュレーションが、AWSでは30分で終わるようになった。
・例えば、天気予報。天気予報はかなり最も過酷なワークロードの1つであり、最大のスーパーコンピューターが必要。米国海軍研究所は最近、天気予報をクラウドで実行した結果を発表した。C5インスタンスでは、従来のオンプレミス専用のスーパーコンピューターと同じパフォーマンスが発揮できる。
・F1のテクニカルエキスパート、Rob Smedleyが登壇。F1のスピードはダウンフォースによって大きく変わるため空気力学の計算が重要。ここにHPCを必要で、AWS上で構築している。以前は1台の車に対する計算が14日間かかった。今は2時間の車の計算が8時間未満で終わる。

・技術の進歩により新しいアプローチが出来るようになり、以前は不可能だったことが可能になったため、アプリケーションが急速に進化した。特に機械学習は急速にすべてのアプリケーションで求められるようになった。
・機械学習のトレーニングには、大量の浮動小数点演算および行列演算が必要。P3インスタンスによって迅速にトレーニングを行うことができる。
・機械学習のトレーニングを行うクラスターは大きくするだけではパフォーマンスが出ない。クラスターのサイズを2倍にすると、パフォーマンスが40%向上する可能性があるが、更にクラスターを大きくするとパフォーマンスの向上率は低下する。
・P3dnインスタンスは高速なネットワーク、Nitroコントローラ、FAAを活用している。P3dnクラスターはクラスターサイズを2倍にすればパフォーマンスが約85%向上する。まだ多少のオーバーヘッドがあるが、他のインスタンスより改善されている。

・機械学習のトレーニングと推論では、インフラストラクチャにも別のアプローチが必要。汎用プロセッサは推論を行うのに適していない。
・推論のためのGPUインスタンスとしてG4インスタンスを提供している。しかしG4は優れたインスタンスだが、昨年のre:Inventで機械学習の推論のために特殊なAWSプロセッサに取り組んでいることを発表した。これがAWS inferentiaだ。

INSITROのFounder CEO、Daphne Kollerが登壇。AWSで機械学習を使用して医薬品開発を行っている。

・グローバルインフラストラクチャの紹介。AWSは22の地域に分散し、更にイタリア、南アフリカ、インドネシア、スペインの4つの追加地域を発表した。これらの各リージョンは、複数のアベイラビリティーゾーンで構成されている。全てのAWSリージョンには少なくとも2つの可用性ゾーンがあり、ほとんどのゾーンには3つある。これは大きなネットワーク。

・最後の締めくくりは、再生可能エネルギーに関する投資について。アマゾンはThe Climate Pledgeに成約した。これはパリ協定で設定されている2050年よりも10年早い2040年までに、温室効果ガスをゼロにすることが求められている。

・今夜、インフラストラクチャのトピックを数多く取り上げた。みなさんがこれらのイノベーションを活用して、HPCや機械学習について楽しんでいただけたことを願っている。

さいごに

これまで発表されたAWSインフラのおさらいのようなセッションでした。過去のKeynoteを未見の方には楽しめたのではないでしょうか。