[レポート]AWS クラウド運用による変革: ビジョンから現実へ #COP224 #reinvent

運用関連の改善の取り組み方や新サービスとの関連が紹介されました。
2022.11.30

こんにちは、臼田です。

みなさん、re:Invent楽しんでますか?(挨拶

今回は下記セッションのレポートです。

[COP224-L]Transform with AWS Cloud Operations: From vision to reality

Many organizations save time and money with AWS Cloud Operations, achieving up to a 241 percent return on investment over three years. AWS Cloud Operations helps organizations run their infrastructure and applications in the cloud, on premises, and using hybrid environments with high availability, superior automation, and proven security. In this session, hear from Nandini Ramani, VP of Monitoring at AWS, and Kurt Kufeld, VP of AWS Platform, as they share the latest innovations across AWS Cloud Operations, including cloud governance, compliance, and observability services. Explore showcases of customer transformations and discover how AWS Cloud Operations can help you accelerate development cycles and improve application availability and performance.

AWS クラウド運用による変革: ビジョンから現実へ

多くの組織が AWS クラウド オペレーションで時間とお金を節約し、3 年間で最大 241% の投資収益率を達成しています。 AWS Cloud Operations は、組織がインフラストラクチャとアプリケーションをクラウド、オンプレミス、および高可用性、優れた自動化、実証済みのセキュリティを備えたハイブリッド環境を使用して実行するのに役立ちます。 このセッションでは、AWS のモニタリング担当副社長である Nandini Ramani と AWS プラットフォーム担当副社長である Kurt Kufeld の話を聞き、クラウド ガバナンス、コンプライアンス、オブザーバビリティ サービスなど、AWS クラウド オペレーション全体の最新のイノベーションについて共有します。 お客様の変革のショーケースを調べて、AWS クラウド オペレーションが開発サイクルを加速し、アプリケーションの可用性とパフォーマンスを向上させる方法を発見してください。

Kevin Plunkett, VP - Cloud Services, Dish Wireless Nandini Ramani, VP, Amazon Kurt Kufeld, VP, AWS Platform, Amazon Web Services

動画

レポート

始める前にすこし話を。

みなさんは夜中の2時にアラートを受け取って起きたことはありますか?システムの障害などの通知を受け取ったことはありますか?

夜中に起こされるとせっかくの一日が台無しですよね。過酷な一日になります。

このような時にはそのコールがなんのインシデントなのか知りたくなります。あるいは色んな人に連絡したり、短い時間で対応したり、ドラフトを出したり、さらにはもう一度同じようなインシデントに対応しなければいけないこともあります。対応が終わって寝てもまた起こされるかもしれません。

どのようにすればこの状況を改善できるでしょうか?どうすれば良い一日にできるでしょうか?

そのためにはメトリクス・グラフ・ログを見ていく必要があります。ソフトウェアの悪いところが見えてきます。すぐに見つかると嬉しいですね。

オブザーバビリティが必要です。AWSにはたくさんの顧客やパートナーがいて良い一日の経験もあります。Amazonでは25年を超える経験もあります。

去年はこの話をしました。クラウドは時間を取らなくてもこういうものを簡単にセットアップできる。ネットワークを作ったりマイグレーションしたり。ハイブリッドでも実現ができる。最終的にこれらをセットアップしたあと利用できるようになる

コンプライアンス、ガバナンス、オペレーショナル・エクセレンス。そうするとお客様から質問があった。「どうやればいいの?」と

成功したものは適切な環境があり組織をスケールする。正しいものをしていかないといけない。例えばガバナンスとか。

その1つはControl Tower。これを使うとより早くよりよくお客様が目的に集中できる。ガバナンスのかなりの部分を自動化できる。

マイグレーションも簡単に。マルチ環境でやる場合、Organizations、Config、Identity Centerなどのオーケストレーションが簡単に。何ヶ月もかけないで実現できる。

デベロッパーのアクセスも素早くできるように俊敏性を上げる。マイグレーションやモダナイゼーションも。

そのためにComprehensive controls management in AWS Control Towerをリリースする。

画面はこんな感じ。Control Towerのコンソールでコンプライアンスを展開して管理できます。

続いてConfig、サプライチェーンの管理などの判断をしていく。全世界で9億回チェックしている。それくらいお客様が使っている。チェックだけではなくリソースがどうなっているか継続的にやっていかないといけない。しかもプロアクティブにしていく必要がある。予防的に評価が必要。

そこでConfigでProactive complianceに対応した。リソース作成前にチェックすることで時間とコストを節約できる。同じConfig Rulesを使って予防的にチェックできる。

そして監査証跡をチェックしていくためにConfigをCloudTrail Lakeに統合しました。

 

リソースを検知するためにAWS Resource Explorer。すべてのリージョンにまたがってリソースを検出できる。マネジメントコンソールだけでなくSDK/CLIからもできる。バルクアクションですべての問題を同時に解決できる。

DISH Wirelessの話。

米国初のクラウドネイティブ 5G ネットワークを提供している。5Gをニーズに合うものにして出していきたい。しかし難しい。チャレンジがたくさんある。

クラウドなどをすべて繋がないといけない。すべてのネットワークにガバナンスを効かせないといけない。最終的にはリテールだけではなく、全て5Gでつなげてクラウドで管理しなければならない

生産性を上げないと。ビジネスの俊敏性も。すべてに自動化を取り付けていく必要がある。

結果、50%以上のコスト削減に成功している。

CI/CDとかいろいろ考えないといけない。VPとしてはやっていかないと、Day1から考えていく。オペレーティングに対する投資。達成していないが準備していかないといけない。セキュリティもアメリカで始めたがグローバルで展開することを意識しないといけない。ローカルゾーンでも使えるように。

Nativeサービスの利点も使っていく。大変な負担を減らす。

リッチなエコシステムの中の話。素早く伸ばさないといけない。パイプラインの中に新しいものをどんどん入れていく

DISHの話は以上。

50%のTCO削減は特に興味深かったですね。E2Eの見えるかが必要です。

別の顧客として、United航空に聞いてみました。すべて使用状況を見える化したいというのです。オンプレミスでもクラウドでもシームレスに、継続するモニタリングが必要だと。そして原因の特定を加速し出てきた問題を早く解決する必要があると。

特にアプリケーションの変化がエンドユーザーに影響を与える場合には管理すると。

可観測性のためにCloudWatchを見ている。今日はCyber Mondayで一番購入が多い。AWSとAmazonはCWダッシュボードをみて運用している。

みなさんもお手伝いしてくれている。お客様からのリクエストが機能拡張の90%を締める。

AWSに入社してスケールにびっくりした。データは5 exabytes。計算機に入れられないぐらいのサイズだ。

CloudWatchでは9 quadrillionメトリクスを毎月取得している。途方も無い量だ。

企業がクラウドに移行しようとするにつれて対応能力は増える。ユーザーの変動などを検出することが重要になる。

ゲーム会社の例。オンラインゲームの開発をしてパブリッシュする。E2Eで見える化してほしいと言われた。性能の問題だけではなく、ネットワークの変動、5GやWi-Fiなどそれぞれの地域でどれだけのデマンドになっているか。つまり自分たちの基盤だけではなく、グローバルにどうなっているかを知る必要があった。

そこでAmazon CloudWatch Internet Monitorをリリースした。

これによりE2Eの可視性を実現する。

全体のヘルスを確認できる。赤いところが影響を受けている。何が影響を与えているのかダブルクリックすると詳細がわかる。

もし外部に問題が見つかったら、ワークロードを違うネットワークに移すなどの対策を検討できる。

このアカウントについてはこういう使い方をする、などで分ける。しかしクロスアカウントも見える必要がある。

Cross-account observability in Amazon CloudWatchをリリースした。

モニタリングでシングルなアカウントを見るのかなど選択できる。シームレスにできる。

インタラクティブなマップを作ることもできる。

CloudWatchでできることがクロスアカウントでできる。

Log Insightsもクロスアカウントできる。

より大事なものはセキュリティ。

ログはみんな使い、あらゆるログがストアされる。しかしデバッギングをするとPIIが、クレジットカード情報などが間違えて含まれてしまう、漏れてしまうことがある。もし出てしまったら削除しないといけないが、それだけでは済まないかも知れない。

動いてしまったあとに削除ではなくフィルタリングして守るほうがいい。そこでData protection of logs in Amazon CloudWatchをリリースした。

コードを書かなくてもMLで勝手に検知できる。

パタメータを作って適用する。PCIやGDPRなどのコンプライアンス対応を実現する。

さらにネイティブサービス以外の要求もある。

例えばGrafanaを使いたいかも。あるいはAWS DistroなどのOpen Telemetricsもある。オープンソースの負担が大きすぎる。オープンソースの管理を手動にするのは大変

VPC support and Prometheus alerting in Amazon Managed Grafanaをリリースした。データがどこに存在していてもGrafanaですべて見れる。

おさらい。毎日good dayになるようにどうするか。1つめは安全にat scaleにAWS上でオペレーションできる。そのためにいろんなサービスで安全な環境を作る。2つめは統合されたオペレーション。最後にフリートコントロールはCloudWatchなどを使うことでアカウント横断の見えるか。

良い1日にしましょう。

感想

すごくたくさんのサービスがリリース + 紹介されました!

オペレーションを自動化して簡単にして、疲弊しないクラウドらしい取り組み方ができるようにしていきたいですね。