【レポート】モダンなモニタリングへの変革!Datadog徹底解説 #AWSSummit #AWSSummitOsaka #datadogJP

2019.06.27

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

どうも!大阪オフィスの西村祐二です。

2019年06月27日に大阪のグランフロントで開催されていますAWS Summit Osaka 2019で行われたセッション「モダンなモニタリングへの変革!Datadog徹底解説」 についてレポートします。

セッション概要

登壇者と概要は下記の通りです。

Datadog,Inc.
Sales Engineer

池山 邦彦

マイクロサービス化やアジャイル開発、DevOpsにより、開発サイクルは短くなり、またリリース頻度は高くなっています。新サービスを安定して提供することがミッションとなる中、目標に向かうために必要なことは何でしょうか? サービスレベル目標の達成状況や定常的なUXの可視化はもちろん、問題やインシデントをいち早く検知し解決すること、また、全員で共通認識を持つことが重要となります。 このセッションでは、このような課題に直面したときに必要とされるモダンなモニタリング手法のセオリーをデモを交えてお話しします。

レポート

  • Datadogが支えるDigital Transformation
    • ツールを使って会社の仕組みをかえられるんじゃないかという声をよくきく
    • IDOM.Inc.で導入
  • クラウドで作ったサービスを可視化するツールだけどシステムの稼働状況以外も可視化
    • Speed,
    • Quality
    • Cost
    • という本質も可視化
  • Datadog活用方法
    • モニタリングすることで大事な3本柱
      • Traces
      • Metrics
      • Logs
  • 開発現場やIT環境は日々変化している
    • 一日何回もリリースされるアジャイル開発など
    • マイクロサービス化など
  • マイクロサービス化による依存関係が分かりづらいという問題点もDatadogで解決
    • 依存関係を可視化する機能をDatadogが提供している
  • AWS & Datadog
    • AWS Integrationを提供
    • DatadogでいろんなAWSサービスを可視化することができる
    • 簡単にデータを取り込んで、可視化できる
  • クラウド時代のモニタリングのポイント
    • Cattle, not pets
    • ペットではなく家畜
    • ペット=オンプレ
      • 手厚くサポート
    • 家畜はサービスを提供するための群
    • クラウドに対する扱いはミルクやチーズをつくるための、牛や羊のイメージ
  • タグ機能を活用して監視対象をグルーピングし、どこに問題があるかわかりやすくする
  • ダッシュボード
    • Screenboard
      • 何が起こっているのかすぐわかる
      • チームをまたがって、共通認識をサポートする
    • Timeboard
      • サービスをドリルダウンして異常の原因リソースまで確認
  • モニター&アラート
    • 簡単に設定できる
    • 基本的なところはすべてできる
      • 異常検知など
    • 機械学習を使って予測などもできる
    • 緊急度の設定をすることが大事なポイント
      • なんでもかんでもアラートをあげるのは良くない
  • 便利な機能
    • ログ管理
      • Datadogエージェントからログ収集して一箇所に集約管理
    • 機械学習によるクラスタリング
      • ログからいつもと違うパターンを検知し、障害やシステムの異常の発見をサポート
      • ログをいれると自動的にクラスタリングしてくれる
    • APMでは多数の言語サポート
      • Python、Ruby、Go、Java、Node.js、.NET、PHP
    • マイクロサービスのトレース
      • 依存関係を可視化
    • TraceSearch
      • サービスをまたがってトレース情報を検索できる
      • スロークエリなど発見に役立つ
    • Watchdog
      • 機械学習による異常検知の自動化
      • アラート設定してなくても通常と違う動きをした場合に検知する機能
    • Synthetics:API Tests(外形監視)
      • サービスを外側から監視
      • 実際に稼働しているのか、レイテンシーがどれぐらいでサービスレベルが担保されているか確認できる
      • 機械学習によりWebデザインの変更も検知できる
      • エラーバジェットの計算・表示もしてくれるのでSREの業務をサポートすることができる

感想

今までDatadogは使ったことなかったのですが、このセッションのおかげでDatadogでできることや、どんな機能があるか、どんな画面なのか理解することができました。

また、デモの動画もありかなりわかりやすかったです。

さらに、監視するときの考え方やポイント、「この機能はこういうときに使うとよい」というようなユースケースも含めた説明だったのでとても参考になりました。