あのXen「秋の再起動祭り」を振り返る〜クラウドサービスユーザー調査〜
こんにちは、せーのです。 秋ですね。食欲の秋、芸術の秋、再起動の秋。 ということで先日、Xenに脆弱性が発見されセキュリティ対応のためにホストの再起動が必要となりました。 Xenを使用しているクラウドサービスは多く、AWSもその一つです。AWSは公式発表より前に順次対象のホストを使用しているEC2、RDSを緊急でリブートメンテナンスする対応を取りました。
さて、では実際のところ今回のリブート祭りでユーザーの影響はどのくらいあったのでしょうか。RIGHT SCALEが興味深いユーザー調査を行っていましたのでご紹介致します。
対象ユーザー
対象者はAWS、Rackspace、SofLayer、オンプレでXenを使用しているユーザー449名です(複数のクラウドを使用しているユーザーもいましたので延べ人数はそれ以上となります)。
リブートによるダウンタイム時間
まずはそれぞれのクラウドユーザーが今回のリブートによって自サービスにどれくらいのダウンタイムがあったのでしょうか。比較しました。 結果はAWSが7割近くが5分以内のダウンタイムで収まりトップでした!1時間以上の深刻なダウンタイムにあったユーザーは5%にとどまりました。
なぜこのような結果になったのでしょうか。RIGHT SCALEはいくつかの理由を提示しています。 まずAWSは他クラウドサービスと違いメンテナンス対象となるインスタンスが全体の10%に留まったという事です。
このグラフでもわかるように39%のユーザーは自分が使用しているインスタンスのうち今回のリブート対象となったインスタンスは10%以下にとどまりました。
ユーザーがリブートに備えて行った対策
これはメンテナンスによる自サービスのダウンタイムを避けるために各ユーザーが取った事前対策です。他サービスのユーザーの48%, 39%が「特に対応しなかった」としている中、AWSユーザーはほぼ半数に至る43%が別AZに冗長化していた、という結果が出ています。 今回のメンテナンスは2日間に分けて行われ、各AZに所属するインスタンスはそれぞれ別日にメンテナンスが行われました。つまりAZを分けて冗長化していたユーザーはリブート対象になるインスタンスが別の日に分かれるため、ダウンタイムが最小限に抑えられた、という事です。これがAWSユーザーが今回のメンテナンスによる影響を最小限に抑えられた最大の原因ではないかと思います。「AWSは基本的に全て冗長化を前提として構成される」という基本原則がユーザーによく浸透している結果かと言えるでしょう。
一方、リブートに対応する時間が十分あった、と回答しているのはオンプレのユーザーが多かったようです。81%のユーザーが「上手に切り抜けた」と回答しています。しかしながらパブリック・クラウドユーザーに比べて41%が「リブート対応に業務時間をたくさん使った」とも回答しています。ここらへんは自社でサーバーを管理することの長所と短所が如実に出たと言えるでしょう。
今後の同様な事象に対する対応は
今回のメンテナンス対応によって現在使用しているクラウドサービスに不満を持ったユーザーはAWSが10%と最も低いという結果になりました。 全体的に今回のメンテによってクラウドを止めようと思ったクラウドユーザーは少なかったようです。
今後ユーザーはこのような緊急メンテによってダウンタイムが発生しないように色々な対策を立てたいと回答しています。中でもやはりAZを分けて冗長化させておく、と回答したユーザーが35%に上るのが特徴的です。
まとめ
いかがでしたでしょうか。AWSにかぎらず、簡単にサーバーの複製やロードバランシングができるクラウドサービスにおいて、いざという時のために冗長的な構成にしておくことは重要だ、ということがお分かり頂けたかと思います。 AWSの冗長構成に関しては弊社はプロフェッショナルが揃っておりますのでお気軽にご相談ください!
参考資料
http://www.rightscale.com/blog/cloud-industry-insights/xen-bug-drives-cloud-reboot-survey-shows-users-undeterred https://blog.xenproject.org/2014/10/02/xsa-108-additional-information-from-the-xen-project-2/