[レポート] 可観測性は AI ・メトリクス・ログの幸せな結婚を夢見るか? AIOps の雄、Moogsoft の CEO が語る #AIM310 #reinvent

AIOps の先駆者・ Moogsoft による、可観測性と AIOps についてのスポンサーセッションをレポートします。
2019.12.27

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

re:Invent 2019 にて開催されたスポンサーセッションのレポートをお送りします。

監視だけでなく、現代のシステム運用に AI を適用する(AIOps)試みはあちこちで始まっています。そのなかでも先駆者的な存在である Moogsoft は、可観測性(Observability)と AI の関係をどうみているのでしょうか。

本セッションの録画は既に公開されていますので、興味がわきましたら是非ご確認下さい。

概要

(抄訳)クラウドとコンテナ、サーバーレスコンピューティングとアジャイル開発の現代において、SRE は高い可観測性を必要としています。このセッションでメトリクス、ログ、アラートの包括的な AIOps アプローチについてお話しします。

資料

登壇者

  • Phil Tee - CEO, Moogsoft

内容

  • 1980 年代 -> 2000 年代、2010 年代
  • 監視プラットフォーム
    • モノリシック -> パッチワーク、OSS、部門単位
  • 元となるイベント毎秒 (EPS)
    • 10〜20EPS(固定的) -> 1,000〜10 万 EPS
  • 設定の変更
    • 日単位(静的) -> 秒単位(カオス)
  • インフラ
    • モノリシック、単一ベンダ -> 仮想/コンテナ/流動的/UNIX/モバイル/マイクロサービス
  • デジタルトランスフォームの時代
    • オンデマンド市場は継続的な変更と無停止(Zero Downtime)を要求している
    • 購入処理
    • 為替
  • システム障害のエビデンス
    • CIO Survey Results
    • 74% のインシデントは、サポートより先に顧客が気付いている
    • 66% の既存の監視ソリューションは、発生している性能上の事象や障害の半分以下しか検知できていない
    • 59% の成長している複雑な IT は、さらなる障害を引き起こしている
    • スケールすると、透明性が落ちる(Grater Scale, Less Visibility)

何をすべきか?

  • 固定的な「ルール」から「AI」へ
    • Before : 仮説 > 計測 > 実行 > 解析
    • After : 注目 > 実行 > データ
  • 状態 (State) と計測 (Measurement) は融合する
  • 固体 (Rigid) から流体 (Fluid) へ
  • 小規模から大規模
  • あいまいさは明瞭に

モニタリング - 連続したデータ

  • 低コンテキスト・遍在的
    • メトリクス(10^9 = 10 億)
    • ログ
  • 高コンテキスト・行動可能
    • アラート
    • 事象(10^2 = 100)
  • ひとつの「事象(インシデント)」には 100 万の「メトリクス」が含まれる
    • まるでマトリョーシカ人形
  • これら中心には「サービス品質」がある
    • インシデントを正しく処理
    • 正しいアラートによって理解し対処する
    • ログによってコンテキストを醸成する
    • 診断のためにトレースとメトリクスを使う

  • アルゴリズムはギャップがある
    • 未加工でフィルタされていない情報は「ゴミ」である
    • アプリケーション、インフラ
  • AIOps
    • AI をエッジに押し出そう - 特に「特徴検出」
    • 集約レイヤの監視対象を保存せよ
      • 根本原因、実用性
    • 自動的な応答によってデータレイクを置き換えよ

ここまでのまとめ

  • AIOps のない可観測性 = ノイズだらけ!(旧来のモニタリング)
  • AIOps を備えた可観測性 = 周回する自動的なデジタルインフラ

Moogsoft

  • AIOps リーダー

  • 50 以上の機械学習パートナーが AI を価値のある・民主的なものにしている
    • ノイズリダクション
    • 相関性検出
    • 因果関係
  • フォーチュン 1000 企業が Moogsoft を利用している

まとめ

時間のほとんどを「現在 AIOps が必要な理由」に割いていて、正直なところ「じゃあ Moogsoft は何ができるのか」がよく分からなかったセッションでした。これも、「AIOps といえば Moogsoft」という自信の現れなんでしょうか。資料もインフォグラフィクス的に作ってあって、見た目が楽しい反面、文字起こしするにはちょっと辛いところが多かった(後半)ので、ぜひ動画をご覧になってください。
AIOps、あるいはモニタリング・可観測性分野への AI の導入はいろんなところで急ピッチに進んでいます。この記事を書く最中に、AWS Summit New York 2019 での Moogsoft のセッションスライドも見つかったので、公式サイトとあわせて勉強してみたいと思います。