
【セッションレポート】~設計から運用まで~ AWS サポートを徹底活用して重要システムを安定稼働させよう(AWS-51)
はじめに
かつまたです。
本記事はAWS Summit 2025 Day2 のセッションに関する聴講レポートになります。
セッション概要
タイトル : ~設計から運用まで~ AWS サポートを徹底活用して重要システムを安定稼働させよう
スピーカー : 古野 俊広
※以下セッション紹介ページから引用
ビジネスに直結する重要システムを AWS でローンチし、安定運用することについて懸念をお持ちのお客様もいらっしゃるのではないでしょうか。AWS には、システムの設計、リリースから安定運用につなげるための踏み込んだサポートを提供する AWS Countdown Premium や、障害復旧をプロアクティブに支援する AWS Incident Detection and Response などのサービスやツールがございます。本セッションでは、AWS サポートが提供するサービスやツールを活用して、重要システムの安定運用やレジリエンス向上を実現する方法をサポート現場のエンジニアの視点から解説します。
アジェンダ
- 重要システムを安定運用するためのポイント
- 設計・開発・テストおよび移行フェーズでの課題
- 保守・運用フェーズでの課題
- まとめ
セッション内容
重要システムを安定運用するためのポイント
オンプレからAWS移行などにおけるシナリオで安定稼働(可用性、稼働率)についてフォーカスした場合、レジリエンスが鍵となってくる。
その中でも重要システムのマイグレーションは重要イベントであり、十分なテストを実施しても想定外な事象が起こりやすい。ビジネスインパクト大。
重要システムのマイグレーションにおいてレジリエンスを向上する道のりは長く、設計・開発・テスト→移行→保守・運用のフェーズを乗り越えていかなければいけない。
設計・開発・テストおよび移行フェーズでの課題
よくあるお悩み
- 高い耐障害性を持つシステムのアーキテクチャ構築は簡単ではない。
- 特にマイグレーションなど既存システムがある場合、複雑である。
- サーバーレスなどのモダナイゼーションを行うが社内のナレッジが限定的。
- 移行中の想定外のトラブルへの対応を迅速に行えるか心配。
AWSサポートによるアプローチ
- AWS Countdown Premium(AWS CDP)
- AWSのサポートエンジニアが設計開始からテストにおいてアーキテクチャー図では分からない詳細設定までレビュー。
- 上限緩和項目や各サービスのリソース設定項目のレビュー。
- 負荷試験中のCloudWatchメトリクスの確認。
- AWSのサポートエンジニアが設計開始からテストにおいてアーキテクチャー図では分からない詳細設定までレビュー。
また、移行フェーズにおいては設計・開発・テストフェーズのサポートに参加しているコンテキストを理解しているエンジニアが継続してサポート。サポートエンジニアへの事前周知やエスカレーション支援を実施。
保守・運用フェーズでの課題
障害発生から復旧までを短くするには問題検知、原因特定、問題解消のステップを迅速にこなす必要がある。
よくあるお悩み
- 問題検知
- エンドユーザーからの申告で初めて障害に気づく。
- アラーム通知を設定してたものの、誰も初動アクションを行えてない。
- 問題原因特定
- 自社アプリケーションやインフラなどの切り分けに時間がかかる。
- 確認すべきポイントが多く、各項目の目視チェックに時間がかかる。
- 確認漏れがあり、問題の原因特定に遅れる。
AWSサポートのアプローチ
-
AWS Incident Detection and Response(AWS IDR)
- 24時間365日のお客様ワークロードのモニタリング
- IME(Incident Management Engineers)がワークロード用に策定された事前定義済みのカスタムランブックを使用して、5 分以内に応答し、お客様に代わってサポートケースを作成し、ワークロードのインシデントを管理
- 必要に応じてWeb会議をリクエストし、双方向コミュニケーションを実施(日本語対応)
-
AWS Support Automation Workflows(AWS SAW)
- トラブルシューティングを自動で実施。
- トラブルシューティングを自動で実施。
まとめ
- オンプレミスからAWS環境への移行において、重要システムのレジリエンス向上は重要であるが、道のりは長い。
- 各フェーズでの重要な考え方
- 設計開発テスト
- 耐障害性の高いシステムの構築
- 移行
- 移行イベントへの備え
- 保守・運用
- 障害復旧時間の短縮
- 設計開発テスト
- 各フェーズにおいてAWSでは以下のサービスにより支援可能
- AWS Countdown Premium(AWS CDP)
- AWS Incident Detection and Response(AWS IDR)
- AWS Support Automation Workflows(AWS SAW)
感想
本セッションでは、AWS CDP、IDR、SAWなどのサポートサービスは自身には知識がないサービスであったので、各サービスの強力なサポート体制に驚きながら学ぶことができました。
特に、設計・開発・テストから移行、そして保守・運用までの各フェーズにおける課題とそれぞれに対するAWSサポートの支援方法を体系的に学ぶことができ、大変参考になるセッションでした。