AWS에서 장애가 발생했을 때 장애 범위를 확인해보기

AWS에서 장애가 발생했을 때 장애 범위를 확인해보기

AWS에 장애가 발생했을 때 이를 확인하는 방법에 대해 기재한 글입니다.
2025.09.17

안녕하세요 클래스메소드의 이수재입니다.
AWS에서는 한번씩 크고작은 장애가 발생하는 경우가 있습니다.
보통 서비스 중단까지 이어지는 경우는 없지만 상황에 따라 비즈니스에 치명적인 장애가 발생할 가능성도 있습니다.
어떻게 이러한 장애를 미리 확인할 수 있을지 알아보도록 하겠습니다.

장애 발생 탐지하기

장애가 발생했을 때 이를 확인하려면 AWS Health라는 서비스를 활용할 수 있습니다.

AWS Health 및 Health Dashboard

AWS Health 는 리소스 성능과 AWS 서비스 및 계정의 가용성에 대한 지속적인 가시성을 제공합니다. ... AWS는 진행 중인 이벤트를 관리하는 데 도움이 되는 관련 정보를 적시에 AWS Health 제공합니다. - 공식 문서

AWS 에서 발생중인 이벤트를 확인하고 이를 활용할 수 있도록 정보를 제공해주는 서비스입니다.

Health는 발생중인 이벤트 이외에도 애플리케이션의 가용성에 영향을 미칠 수 있는 중요한 변경 사항(EOL) 등도 알려주는 기능을 가지고 있습니다.

특히 Organization 과 통합하여 조직 전체의 상황을 확인하는 것도 가능하기 때문에 Organization 으로 환경을 운용하는 경우 연계하여 확인하는 경우가 많습니다.

Health에서 제공하는 정보는 Health Dashboard 를 통하여 시각화하여 확인할 수 있습니다.

이전에는 AWS 전반에 발생한 이벤트를 확인할 수 있는 Service Health Dashboard 와 이를 더 상세하고 개인 리소스에 맞추어 확인할 수 있는 Personal Health Dashboard 가 있었지만, 22년에 Health Dashboard 라는 이름으로 둘을 통합하여 제공하고 있습니다.

AWS User Notifications 사용하기

2025년 9월 15일부터 AWS Health 이벤트는 AWS User Notifications에서 관리형 알림으로 전달됩니다.
다른 알람을 이미 User Notifications에서 관리하고 있다면 Health의 알람도 같이 관리할 수 있게 되었습니다.

User Notifications

https://aws.amazon.com/ko/blogs/korea/new-set-up-your-aws-notifications-in-one-place/

23년에 출시된 서비스로 AWS 계정, 리전 및 서비스에 걸쳐 AWS 알림을 설정하고 한 곳에서 바로 보는 기능을 제공합니다.

AWS Health 이벤트, Amazon CloudWatch 경보, EC2 인스턴스 상태 변경과 같은 AWS 서비스에서의 모든 알림을 하나의 서비스에서 관리할 수 있으므로 상당히 편리합니다.

아래 글도 서비스를 이해하는데 참고가 될 것 같아 공유합니다.
https://www.smileshark.kr/post/new-set-up-aws-user-notifications

설정 방법

사용 방법은 다음과 같습니다.

  1. 콘솔에서 User Notifications에 접속합니다
  2. 왼쪽의 메뉴에서 AWS 관리형 알림 구독 클릭합니다
  3. 아래와 같이 기본적으로 AWS Health 알림이 기본적으로 활성화 되어 있습니다.
    111
  4. 하지만 각 항목의 구독 관리에는 AWS에 등록한 기본 연락처만 등록되어 있습니다. 추가로 수신할 대상을 추가해야한다면 전송 채널 추가 를 클릭하여 수신 받을 대상을 추가합니다.
    222
  5. 메일을 추가하면 아래와 같이 메일 인증 대기중으로 표시됩니다.
    333
  6. 메일함을 보면 다음 이미지와 같은 인증 메일이 도착해있습니다. 인증 버튼을 누른 후 AWS 로그인을 하면 인증 된 것을 확인할 수 있습니다.
    444

AWS Health 의 이벤트 알람 보내기

위의 User Notifications의 관리형 구독은 서비스 별 알람과 같은 상세한 설정은 할 수 없습니다.
따라서 상세한 설정이 필요하다면 EventBridge와 같은 다른 서비스와 연계할 필요가 있습니다.

설정 방법

  1. SNS 토픽과 구독을 설정합니다. 구독을 받을 메일까지 설정하고 나면 마찬가지로 인증 메일이 도착하므로 확인합니다.
    555
    666
  2. EventBridge 콘솔에 접속한 후 규칙 메뉴에서 규칙 생성 을 클릭하여 규칙을 생성합니다.
  3. 이름은 필요한 값으로 지정한 후, 이벤트 패턴은 다음 이미지와 같이 AWS 서비스Health 를 지정합니다. 특정 서비스를 대상으로 하는 경우, 특성 서비스를 선택하고 대상이 되는 서비스를 지정합니다. 예시의 이미지는 EC2의 모든 이벤트에 대해 수신하도록 설정되어 있습니다. 필요에 따라 대상 서비스를 계속해서 선택합니다.
    777
  4. 대상으로는 방금 생성한 SNS의 토픽을 지정합니다.
    888
  5. 태그를 필요에 따라 설정하고, 설정한 값을 검토한 후 규칙을 생성합니다. 문제없이 생성되면 아래 이미지와 같은 상태가 됩니다.
    999

이 글에서는 이메일을 구독 대상으로 지정했지만 다른 매체를 구독 대상으로 지정하는 것도 가능합니다.
https://docs.aws.amazon.com/ko_kr/prometheus/latest/userguide/AMP-alertmanager-SNS-otherdestinations.html

마무리

AWS 상의 장애는 비즈니스에 큰 영향을 끼치기 때문에 빠르게 캐치하는게 중요하다고 생각합니다.
이 글이 그런 상황에 도움이 되면 좋겠네요.

긴 글 읽어주셔서 감사합니다.
오탈자 및 내용 피드백은 must01940 지메일로 보내주시면 감사합니다.

문의 사항은 클래스메소드코리아로!

클래스메소드코리아에서는 다양한 세미나 및 이벤트를 진행하고 있습니다.
진행중인 이벤트에 대해 아래 페이지를 참고해주세요.

https://classmethod.kr/board/library

AWS에 대한 상담 및 클래스메소드 멤버스에 관한 문의사항은 아래 메일로 연락주시면 감사드립니다!
Info@classmethod.kr

この記事をシェアする

FacebookHatena blogX

関連記事