[レポート] AWSで作ったシステムのMTTIを短縮する。Sumo LogicのAWS Observabilityで。#devio2022

2022.08.01

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

この記事は2022年7月19日〜29日開催の技術カンファレンス「DevelopersIO 2022」のセッションレポートとなります。

今回ご紹介するセッションでは、SIEM製品として良く知られているSumo Logicで、セキュリティを中心とした利用用途のみならず、開発者目線での可観測性(Observability)プラットフォームとしても利用できますよ、ということと、その活用法について23分程度のセッションでデモを交えて分かりやすく説明していただきました。

なお、クラスメソッドがお送りするDevelopersIO 2022イベントの全セッションはこちらからご覧いただけます。

本編について

本編はこちらからご覧いただくことができます。

スピーカー

Sumo Logic Japan シニアソリューションエンジニア Tetsuro Kanzakiさま

本セッションで学べること

AWSで構築したシステムのMTTIを削減する、「Sumo Logic AWS Observability Solutions」について学ぶ

本セッションの対象者

  • AWSのトラブルシューティングに時間がかかり、困っている人
  • AWSのログ、メトリクスを「貯めるだけ」で活用出来ていない人
  • Observability(オブザーバビリティ)について学びたい人

レポート

Sumo Logicの3つの活用用途

  • 開発者=運用を中心としたObservability(可観測性)のプラットフォームとして活用
  • セキュリティ担当者=セキュリティのインサイトをSIEM
  • ビジネス・サポート=ビッグデータ解析基盤として活用

Sumo Logicはあらゆるログ・イベント・メトリクス・アプリケーションパフォーマンスを統合監視することが可能

Sumo Logicの特徴

  • SaaSベースなので、基盤運用が不要
  • SOC2 Type2、PCI-DSS、ISO 27001に準拠したプラットフォーム
  • ログ、メトリクス、APM、Securityを一つのプラットフォームで分析
  • 機械学習による分析
  • ビルトインのAWSの可視化テンプレート
  • トレーニングプログラム

Gartner Magic QuadrantでChallengerに選出

Observability(オブザーバビリティ、可観測性)とは

従来の監視やモニタリングの世界で得ることができるWhat?(何が起きたのか)をさらに深堀り。取り込んだ様々なデータを相関分析することによってWhere?(どこで起きていたのか)、Why?(なぜ起きたのかの原因)までを知ること。

Sumo Logicが提供するObservalibity Solutions

  • Application Observability: APM、ログ、メトリクスを統合監視
  • Kubenetes Observability: K8s環境を統合的に可視化
  • Multi-Cloud Observability: AWS、GCP、Azureを統合的に監視
  • AWS Observability: AWSのあらゆるサービスを統合監視
  • Software Development Optimization: 開発サイクルの可視化と高速化
  • Web and Edge Observability: CDN、RUM、WebServer等を総合監視

AWS Observabilityとは

ソリューションの目的

  • 複雑でカオスなAWS上のサービスの統合監視&MTTI削減

ソリューション開発の背景

  • AWSの多様化
  • Regionの増加
  • マルチアカウント構成によるAccountの増加
  • モダンAppのアーキテクチャは複雑

AWSサービスによる課題解決

  • CloudTrail
  • CoudWatch
  • GuardDuty
  • Amazon OpenSearch
  • Athena

これらのソリューションは、それぞれ運用や利用が大変で統合されていない

デモ(AWS Observability)

※デモでは、複雑なAWS環境を一元可視化できる操作感について紹介されています。ぜひ本編でもご覧いただくことをお勧めいたします。

一枚のダッシュボードでAWS環境のあらゆるサービスをアカウント毎に可視化

Lambdaの頻発しているエラーを深堀りして、どこで(Where?)起きているのか、なぜ(Why?)起きているのかを確認する

Lambdaの詳細ダッシュボードを確認

エラーの出ているFunctionsに注目する

さらに詳細を確認したいFunctionsからドリルダウンをしていく

エラーの発生開始時間にLambdaファンクションの更新があったこと、更新したユーザーを追うことができる。(Where?とWhy?を知る)

デモ(Root Cause Explorer)

ALBのエラーを深堀りして、どこで(Where?)起きているのか、なぜ(Why?)起きているのかを確認する。Root Cause Explorerの機能を活用して、ALB以外の他のサービスが関連しているか、エラーにどのように関わっているかを追跡する。

ALBのエラーがスパイクしている原因について探っていく

ALBの詳細ダッシュボードを確認

5XXのエラーがスパイクしていることを確認

Root Cause Explorerの画面を開く

(Root Cause Explorer画面の説明)

  • 横軸: 時系列
  • 縦軸: 普段と比べての異常性
  • プロットされている丸: それぞれ一つずつのAWSサービス

対象時間にズームインする(ALBのエラーが頻発していることを確認)

ALBのエラー発生直前からEC2のCPU使用率も高騰

さらにEC2のCPU使用率の高騰の直前の時間帯ではDynamoDBの読み込み遅延が発生

ALBのエラーを起点に他のサービスの関係性や起因となるエラーや兆候を確認することができる

CloudFormationを利用して、簡単にSumo Logicへの設定が可能

所感とまとめ

Sumo Logicを利用した、Observability(可観測)による全体の把握とシステム相関性の可視化についてご紹介いただきました。
SIEMとしてのセキュリティ監視/分析だけでなく、開発者目線での原因解明がより深く行えることが期待できます。また、セッションの中でも少し触れられていますが、売上げの分析やユーザ傾向分析などビジネスインテリジェンスの可視化用途にもお使いいただくことができる。包括的なデータ分析プラットフォームであることが分かりました。
今後ますます広がるデジタル化に伴うデータ分析基盤としてご活用いただけるのではないでしょうか。