【レポート】マルチリージョンでディザスタリカバリ(DR) 戦略を検討するためのポイント(AWS-50) #AWSSummit
こんにちは。たかやまです。
今回は2022年5月25 - 26日の2日間開催されているAWS Summit Onlineのセッションレポートになります。
セッション概要
タイトル : マルチリージョンでディザスタリカバリ(DR)戦略を検討するためのポイント
AWS をご利用されている全てのお客様が直面する可能性のある最大の課題の 1 つに災害イベントがあります。 ワークロードまたはシステムのビジネス目標の達成を妨げるイベントは、 災害として分類されます。 このセッションでは AWS Well-Architected フレームワークで説明されている信頼性の柱のベストプラクティスを基に、AWS における複数リージョンでのディザスタリカバリ (DR) 戦略の考え方とアプローチをご紹介します。
スピーカー :
AWS パートナーアライアンス統括本部 ストラテジック SI 技術部
シニアパートナーソリューションアーキテクト 大場 崇令 氏セッションレベル : 400上級者向け
レポート
災害イベント
- ハイパフォーマンスで安全/信頼性の高い、コスト効率の優れた持続可能なIT基盤が求められる
- 災害イベント
- イベント
- 自然災害
- 技術的障害
- 人的ミス
- ビジネス目標を妨げるものはすべて災害
- イベント
RTO/RPOや可用性要件に基づいて、DR戦略を検討する
- DR目標
- RTO/RPOの明確化
- RTO: サービスの中断/サービスの復旧までの最大許容遅延時間
- RPO: 最後のデータ復旧ポイントからの最大許容時間
- RTO/RPOの明確化
- マルチAZ戦略/マルチリージョン戦略
- マルチAZ戦略は地域的な災害などのイベントに有効
- マルチリージョン戦略は国レベルの災害イベントに有効
- 可用性目標
- 単一リージョン
- 可用性99%/99.9%/99.99%
- マルチリージョン
- 可用性99.95%で復旧時間が5〜30分のシナリオ
- 可用性99.999%以上で復旧時間が1分未満のシナリオ
- 単一リージョン
- Well-Architectedフレームワーク
- AWSとお客様の10年にわたる経験をもとに作成
- 6つの柱(運用上の優秀性/セキュリティ/信頼性/パフォーマンス/コスト最適化/持続可能性)で構成される
- 各柱には設計のときにおさえておきたい設定原則が用意されている
- 各柱には質問形式のベストプラクティスが用意されている
- 信頼性の柱をフォーカス
- 4つのDR戦略を紹介している
AWSで検討可能なDR戦略
- バックアップと復元戦略
- バックアップと復元とは
- RTO/RPOが一番大きい戦略
- RTOはインフラを起動してバックアップを復元する時間
- RPOは前回のバックアップ時間
- コストが安く実装を簡単にできる
- RTO/RPOが一番大きい戦略
- 実装
- システムのバックアップをS3などに保存
- バックアップを復元する手順を用意。IaCを使うとスムーズなサブサイト復旧をおこなえる
- サブサイトはバックアップストレージのみなので低コスト
- リージョン内のバックアップ
- マルチAZ戦略を検討
- バックアップ方法
- バックアップ : AWS Backup
- ポイントインタイムリカバリ : DyanamoDB, RDS
- バージョニング : S3
- マルチリージョンでのバックアップ
- データベースの動機方法はRPO要件を満たす
- マネージドサービスの活用
- AWS Backupでのバックアップ
- KMSでの暗号化
- Organizationsでの組織のバックアップアクティビティを構成
- 別リージョンへのバックアップ
- データベースの同期はRPO要件に従って定義
- Backup/S3のクロスリージョンバックアップを活用
- 検出
- CloudWatch
- アラーム機能での検知
- Anomaly Detectionでのサイトエンゲージ、パフォーマンス指標での検知
- Health Dashboard
- EventBridgeで検出し、さまざまなサービスに連携可能
- CloudWatch
- リカバリ
- 復旧先リージョンへの復元はIaCで自動化
- CFn,CDK
- EC2はゴールデンAMIを準備し、Image Builderで復旧先リージョンにコピー
- EventBridgeを使用したサーバレスソリューションで実装も可能
- 復旧先リージョンへの復元はIaCで自動化
- バックアップと復元とは
- パイロットライト戦略
- パイロットライトとは
- コアデータセットを復旧リージョンにレプリケーション
- RTOはDRの必要性を検出してシステムをスケールアップするまで
- RPOはレプリケーションのタイプによって異なる
- 稼働リソースは少ないのでコスト効果がたかい
- 実装
- コアデータのDRリージョンへミラーリング
- ライセンスが復旧先で利用できるか確認
- DRで使える最新のスナップショット/AMIを用意
- 予行練習を行う
- リカバリ
- Auroraグローバルデータベース
- DyanamoDB グローバルテーブル
- Route53 Application Recovery Controller
- CloudFormation
- パイロットライトとは
- ウォームスタンバイ戦略
- ウォームスタンバイとは
- パイロットライトの次の段階
- サブサイトにフル機能を低キャパシティで展開
- ある程度であればサブサイトで本番トラフィックを処理可能
- アクティブ/アクティブよりコストが安い
- RTOは重要なワークロードはフェイルオーバに要する時間、それ以外はスケールに要する時間
- RPOはレプリケーションのタイプによって異なる
- 実装
- パイロットライトとほぼ同様
- 災害が発生時はキャパシティを拡張する。
- ウォームスタンバイとは
- マルチサイトアクティブ/アクティブ戦略
- マルチサイトアクティブ/アクティブとは
- 常時フルキャパシティのリソースが稼働している
- 最もコストがかかる
- RTOはフィルオーバに要する時間
- RPOはレプリケーションのタイプによって異なる
- マルチサイトアクティブ/アクティブとは
- フェイルオーバー
- Route 53によるDNSフェイルオーバ
- Global Acceleratorによるフェイルオーバ
- DRのテスト
- Fault Injection Simulatorの使用
- 準備のためのベストプラクティス
- 最初はシンプルに開始し、徐々にレベルアップする
- ソフトウェアライセンシングの問題確認
- DRソリューションの練習
- AWSの災害対策の利点
- さまざまなサービスが利用可能
- RTO/RPOのトレードオフを細かくコントール可能
- DRテストが容易
- 世界各地で利用可能
- AWSパートナーを利用可能
まとめ
Well-Architectedフレームワーク信頼性の柱より4つのDR(バックアップと復元/パイロットライト/ウォームスタンバイ/マルチサイトアクティブ-アクティブ)を紹介してくれました。
混乱しがちなDR戦略がとてもわかりやすくまとまっているセッションで、DRを検討している方、これからする方、必見のセッションです。
最後に信頼性の柱のリンクも貼るので、こちらも合わせてご確認ください!
以上、たかやまでした。