DATADOG 101: Weekly technical session を見てみた #datadog

2019.10.02

こんにちは 園部です。

今日は、Datadog が毎週開催している Webinar( DATADOG 101: 毎週のデモ Weekly technical session )に参加してみました!日本語での Webinar となりますので、私のような人間にも安心です。

良い内容だったので、レポートさせていただきます。

Webinar 情報

開催日時 毎週 水曜日 午後 3時00分 - 3時30分
申し込み方法 こちら より申し込み
視聴方法 Zoom 利用

アジェンダ

セットアップ

  • Agentのインストール
  • 350以上のテクノロジーに対応しているインテグレーションの設定

簡単に可視化を実現

  • Host MapとContainer Map
  • Service Map
  • Integration Dashboards

問題が起きた場合にチーム間のコラボレーションを実現

  • Timeboardsとイベント/メトリクスの相関
  • Logの調査と分析
  • APMの概要

機械学習を使ったプロアクティブなモニタリング

  • 異常値/外れ値検知モニタリングでアラート
  • 季節変動を学習する予兆モニタリング
  • Watchdogでモニタリング対象外の異常値を検知

引用: 募集サイトより

内容

Datadog とは

クラウド時代の開発者&運用担当者のためのモニタリング&分析SaaSです。
いわゆる、3つの柱(Traces, Metrics, Logs)をカバーしている。

ダッシュボード

ダッシュボードは2種類あります。

  • ScreenBoard(For status boards and sharing data)
    • ステータスを確認する共有向き
  • TimeBoard(For troubleshooting and correlation)
    • 詳細を確認する用途向き

インテグレーション

350以上の連携先があります。大きく2種類のものがあります。

  • Crawler ベース(例: AWS インテグレーション)

  • Agent ベース(例: Redis)

インテグレーションによっては、プリセットされたダッシュボードが用意されています。それを Clone してオリジナルのダッシュボードを作成することも可能です。

Host Map

ホストマップは、複数のホストを 1 画面にビジュアルに表示します。色と図形を使用してメトリクスをわかりやすく表現できます。

引用元: Host Map(公式ドキュメント)

六角形のマスでホストを表し、メトリクス条件によって色分けすることで、全体の状況を俯瞰して確認することが可能です。

Service Map

サービスマップは、アプリケーションをそのすべてのコンポーネントサービスに分解し、これらのサービス間の観測された依存関係をリアルタイムで引き出します。そのため、ボトルネックを特定し、データがアーキテクチャをどのように流れるかを理解できます。

引用元: Service Map(公式ドキュメント)

マイクロサービス(コンテナなど)間の通信を可視化することが可能です。APM を利用することマップが作成されます。また異常(エラー)となっている部分が赤く表示され、APM にシームレスに遷移して APM フレームグラフで、クエリ内容やレスポンスタイムなどを確認することで、根本的な原因を追求することができます。

具体的な例は、こちらのブログ( Introducing the Service Map in Datadog )にて紹介されています。

Log Explorer

ログエクスプローラーを起点として、トラブルシューティングと調査を行うことができます。

引用元: Log Explorer(公式ドキュメント)

Datadog に集められたログを調査・分析することが出来るサービスです。Datadog は、ログ管理が楽に行えます。大量のログから必要な内容を抽出するには、grep や クエリを書くことが多いかと思いますが、Datadog では Facet を定義・利用することで対象を絞り込んだり切り口を変えることが可能です。

所感

Datadog の Log 関連のサービスはまだ利用したことはなく、今後試していきたいサービスです。

Synthetics

Synthetics では、ユーザーリクエストのシミュレーションとブラウザーのレンダリングを通してアプリケーションと API エンドポイントを監視することで、稼働時間を確保し、局所的な問題を特定して、アプリケーションのパフォーマンスを追跡できます。

引用元: Synthetics(公式ドキュメント)

今年、春頃にリリースされたいわゆる外形監視を行うサービスです。API Tests(外形監視)と Browser Test(Selenium のようなシナリオテスト) が提供されています。 Browser Test は従来であればシナリオを定義する必要がありますが、Datadog Browser Test では、UIからシナリオを作成することが可能です。

具体的な例は、こちらのブログ( Introducing Datadog Synthetics )にて紹介されています。

所感

Sythetics は今回の紹介以外にも SSL証明書期限の監視も行えるため、外形監視としては十二分な機能を備えているのではないでしょうか。 Beta ではありますが Synthetics Private Locations (インターネットからの通信を許可していない環境などで利用が可能)もあり、益々便利になりそうなサービスの一つです。

Sythetics に関してはいくつかブログを書かさせていただきました。

Watchdog

Watchdog は、APMからアプリケーションとインフラストラクチャーの潜在的な問題を自動的に検出する、アルゴリズムに基づいた機能です。Watchdog は、アプリケーションメトリクスに含まれる傾向やパターンを監視します。たとえば、エラー率、リクエスト率、レイテンシー等からの傾向やパターンと、予想外の変動などを監視します。Watchdog は、すべてのサービスとリソースが評価するため、各サービスのモニターを設定する必要はありません。

引用元: Watchdog(公式ドキュメント)

Datadog の Machine learning を用いて 大量のメトリクスから異常を検出します。多くの利用者では大量のメトリクスの中で、モニタリングに利用されているメトリクスは一部になり、メトリクスの見直しや重要なメトリクスが対象からなっていないケースもある。Watchdog ではメトリクスから異常が見られたものをサジェストしてくれるため、それを元にモニタリング対象を見直すために利用することも可能です。

具体的な例は、こちらのブログ( Watchdog: Auto-detect performance anomalies without setting alerts )にて紹介されています。

所感

現時点で、モニタリングの領域で ML を利用したサービスの活用方法としては、Webinar 内で紹介があったようなサジェッションとして利用するのが有効かと感じます。もちろん今後様々な面で応用されていくことが予想されますし、Datadog ではWatchdog 以外でも ML が活用されており、試したいサービスがたくさんあります。

さいごに

こういった Webinar は短時間で概要やトレンドを抑えるのに、とてもありがたいものですね。個人的には、ドキュメントやスライドのみでは学習意欲の持続が難しいので、Webinar や コミュニティ に参加して、モチベーションあげたり、次の取っ掛かりにするようにしています。

機能カットで深い Webinar も開催されると嬉しいなと期待しています。