![[レポート]クラウド運用のインテリジェントな自動化に参加しました。#AWSreInvent #SPS304](https://images.ctfassets.net/ct0aopd36mqt/4pUQzSdez78aERI3ud3HNg/fe4c41ee45eccea110362c7c14f1edec/reinvent2025_devio_report_w1200h630.png?w=3840&fm=webp)
[レポート]クラウド運用のインテリジェントな自動化に参加しました。#AWSreInvent #SPS304
はじめに
こんにちは。AWS re:Invent2025 に参加しているオペレーション部のshiinaです。
現地よりワークショップ「SPS304|クラウド運用のインテリジェントな自動化」のレポートをお伝えします。
セッション概要
タイトル
クラウド運用のインテリジェントな自動化 (SPS304)
詳細
このワークショップでは、AWS Health、AWS Trusted Advisor、AWS 生成 AI および機械学習サービスを活用してクラウド運用をインテリジェントに自動化する方法を学習します。
また、Amazon EventBridge と AWS Lambda を使用して、組織がクラウドインフラストラクチャの最適化、効率性の向上、運用コストの削減に活用できる自動化を作成する方法も学習します。
このワークショップは、クラウド運用の管理と最適化を担当するクラウド管理者、DevOps エンジニア、サイト信頼性エンジニア、IT プロフェッショナルを対象としています。
スピーカー
- Milan Karalic,Principal SysDev, Amazon Web Services
- Francesco Penta,Principal Cloud Support Engineer, Amazon Web Services
レベル
300

クラウド運用のインテリジェントな自動化について
AWS 上のインフラ運用をよりスマートかつ自動化していくための考え方とサービス活用パターンが紹介されました。
- AWS Trusted Advisor や AWS Health を使い、インフラの状態を正しく知る
- CloudWatch で異常検知を行い、EventBridge 連携によるイベントドリブンな運用を実現する
- インテリジェントなデータソースで今の状態を正しく把握する
やってみた
本ワークショップは既に公開されており、下記 URL より実施することができます。
クラウド運用の自動化やインシデント対応の高度化に興味がある方にとって、実践的な内容になっていました。
具体的には以下の内容を体験できます。
- AWS Health 不正使用イベント
- 自動コードロールバック
- 大規模なトラブルシューティングと修復の自動化
- Amazon Quick Suite を使用して運用上の洞察を得る
AWS Health 不正使用イベント

AWS Abuse イベントを解析し、SNS へ通知する Lambda 関数を用意しました。
なお、Lambda のコードは書かず、コメントから Amazon Q Developer で生成しました。
最後に、AWS Health の Abuse イベントを EventBridge で連携させ実現する内容となります。

自動コードロールバック

まず CloudWatch 異常検出を有効にし、アラームを作成します。
サンプルコードをデプロイしたあと、AWS Fault Injection Service(AWS FIS)にてネットワークパケットロス障害をシミュレーションしました。
アラームをトリガーに CodeDeply による自動ロールバックが行われたことを実際に確認できました。


大規模なトラブルシューティングと修復の自動化

AWS Systems Manager Run Command を利用し、複数のインスタンスに対して設定変更を実施します。
ここでは意図的に設定ミス(タイポ)を発生させ、SSH 接続ができなくなるシナリオを体験しました。
#!/bin/bash
sed -i 's/^#Port 22/Potr 2222/' /etc/ssh/sshd_config
systemctl restart sshd
その後、AWS Systems Manager オートメーションランブック「AWSSupport-TroubleshootSSH」を使った修復の自動化を行いました。
インスタンスに繋がらない状況においても AWS Systems Manager の機能を活用して修復の自動化を体験できました。

Amazon Quick Suite を使用して運用上の洞察を得る

はじめに AWS Health、AWS Trusted Advisor の API を利用してデータの取得し、S3 に保管する Lambda 関数を用意します。
EventBridge のスケジュールルールで定期実行することで、データを継続的に蓄積します。
Amazon Quick Suite を利用し、S3 バケット内のデータソースと接続したあと、データの統合を行います。
スペースにナレッジベースを作成し、自然言語で運用上の洞察を得ることを実施しました。

最後に
このハンズオンでは、AWS Health や CloudWatch、EventBridge、SNS、Lambda、CodeDeploy、Systems Manager を組み合わせて、異常検知から自動通知・自動ロールバック・自動修復までの一連の流れを体験できました。
さらに、Amazon Quick Suite を用いて運用データを分析し、自然言語で洞察を得ることで、クラウド運用の自動化と高度化の具体的なイメージを掴むことができた点も大きな学びでした。
#AWSreInvent
#SPS304









