Datadog Fleet Automation でエージェントアップグレードを自動スケジューリングしてみた

Datadog Fleet Automation でエージェントアップグレードを自動スケジューリングしてみた

Datadog Fleet Automation のエージェントアップグレードのスケジューリング機能を実際に試してみました。 設定手順や実際の挙動、運用上の注意点についてまとめてみました。
2026.04.28

こんにちは。オペレーション部のしいなです。

はじめに

皆さんは Datadog エージェントのバージョン管理をどのように行っていますか?
多数のホストを運用している環境では、エージェントのバージョンアップグレードは手間のかかる作業になりがちです。
各ホストに個別にログインしてアップグレードを実行するのは非効率であり、バージョンの統一管理も難しくなります。
Datadog Fleet Automation のリモートエージェント管理機能を使うと、複数ホストへのアップグレードをコンソールからまとめて実行できます。
リモートエージェントでのアップグレードについては、以下の記事でも紹介されていますのでご参考ください。
https://dev.classmethod.jp/articles/datadog-fleet-automation-remote-agent-upgrade-configuration/

アップグレードのスケジューリング機能を利用すると指定した時間帯に自動でアップグレードを実行できるため、定期メンテナンスへの組み込みや夜間メンテナンス運用が可能になります。
実際に試してみましたので、スケジューリング機能の設定や実際の挙動についてまとめてみました。

スケジューリング機能について

Datadog Fleet Automation のリモートエージェント管理機能の一つです。
従来はリモートエージェント管理画面から手動でアップグレードを実行する必要がありましたが、
指定した期間に自動でアップグレードを実行するスケジュール機能があります。

仕様

  • スケジュール期間中、定期的に新バージョンの有無をチェックする
  • 新バージョンが検出された場合、以下の3つのターゲットバージョンからアップグレード先を選択可能
選択肢 説明
最新バージョン(N) 最新のマイナーバージョン
1世代前(N-1) 1つ前のマイナーバージョン
2世代前(N-2) 2つ前のマイナーバージョン
  • アップグレードはスケジュール期間内にのみ実施
  • アップグレード中にスケジュール期間が終了した場合は一時停止し、次の期間に再開される
  • スケジュールは曜日・時間帯・タイムゾーンを組み合わせて設定
  • アップグレード対象は タグ・OS・ホスト名などで絞り込み可能

前提条件

  • 導入済み Datadog エージェントのバージョンは 7.73.0 以降
  • Datadog 組織でリモート構成(Remote Configuration)が有効になっていること

注意事項

Fleet Automation によるアップグレードでは、以下の点に注意が必要です。
ディスク空き容量
アップグレードには以下のディレクトリに 1.3 GB 以上(推奨: 2 GB 以上)の空き容量が必要です。

  • Linux: /opt/datadog-packages
  • Windows: C:\ProgramData\Datadog\Installer\packages

ダウンタイム
エージェント再起動中に 5〜30 秒程度のダウンタイムが発生します。
アップグレードプロセス全体では約 5 分かかります。
監視への影響を最小限にするため、業務影響の少ない時間帯にスケジュールを設定することをおすすめします。

やってみる

Datadog エージェント導入済みのホストに対して、最新バージョンへアップグレードするスケジュール設定を行ってみます。

  • OS: Amazon Linux 2023
  • 対象ホスト数: 5台
  • アップグレード前: Agent 7.73.0
  • アップグレード後: Agent 7.78.0

スケジュール設定

  1. Datadog コンソールメニュー「Datadog Setup → Upgrades」を選択します。
    Fleet-Automation-Upgrades-1

  2. 「Create Schedule」を選択します。
    Fleet-Automation-Upgrades-2

  3. 次の設定項目を入力し、「Create Schedule」を選択します。

設定項目 内容
Schedule name スケジュールを識別するための任意の名前
Select target version アップグレード先のエージェントバージョン(N / N-1 / N-2)
Select Agents to be Upgraded 対象ホストのスコープ(タグ・OS・ホスト名など)
Set deployment window アップグレードを実行するスケジュール期間
Set up notification アップグレード関連イベントの通知先

Fleet-Automation-3

  1. 設定が完了すると、設定一覧とともに、次回のスケジュール予定が表示されます。
    Fleet-Automation-4

スケジュールによるアップグレード

スケジュール設定した開始時間になると、アップグレードタスクが開始されます。
Set up notification に指定した通知先に通知が届きます。
Fleet-Automation-5

Datadog-scheduledメール

今回はスケジュールを 18:45 開始に設定しましたが、実際のタスク開始および通知の受信は 18:52 でした。
スケジュール設定画面には以下のメッセージが表示されています。

Datadog will check for new versions and automatically upgrade eligible Agents in scope during the specified deployment window below.

「deployment window 期間中に」チェックおよびアップグレードが実行されるという記載のとおり、開始時刻ちょうどに即時実行されるのではなく、ウィンドウ期間内のいずれかのタイミングで実行される動作のようです。
メンテナンス時間帯を設定する際は、この点を考慮してウィンドウに余裕を持たせると良いでしょう。

アップグレードはローリングデプロイ方式で順次実施されます。
各ホストのアップグレードが完了すると、ステータスが Completed に変わります。

Fleet-Automation-6

全 5 台のアップグレードが正常に完了しました。1 台あたりのアップグレード所要時間は 4〜5 分程度でした。
Fleet-Automation-7

完了時にも通知が届きます。
Datadog-scheduledメール完了

Datadog エージェントの確認

アップグレード後、対象ホストでエージェントの状態を確認します。
サービス稼働状態の確認

systemctl status datadog-agent
 datadog-agent.service - Datadog Agent
     Loaded: loaded (/etc/systemd/system/datadog-agent.service; enabled; preset: disabled)
     Active: active (running) since Thu 2026-04-23 09:55:27 UTC; 2min 43s ago
   Main PID: 6310 (agent)
      Tasks: 8 (limit: 1014)
     Memory: 49.1M
        CPU: 2.955s
     CGroup: /system.slice/datadog-agent.service
             └─6310 /opt/datadog-packages/datadog-agent/stable/bin/agent/agent run -p /opt/datadog-packages/datadog-agent/stable/run/agent.pid

Apr 23 09:56:48 ip-10-0-0-123.ap-northeast-1.compute.internal agent[6310]: 2026-04-23 09:56:48 UTC | CORE | INFO | (pkg/collector/worker/check_logger.go:40 in CheckStarted) | check:telemetry | Runn>
Apr 23 09:56:48 ip-10-0-0-123.ap-northeast-1.compute.internal agent[6310]: 2026-04-23 09:56:48 UTC | CORE | INFO | (pkg/collector/worker/check_logger.go:59 in CheckFinished) | check:telemetry | Don>
Apr 23 09:56:49 ip-10-0-0-123.ap-northeast-1.compute.internal agent[6310]: 2026-04-23 09:56:49 UTC | CORE | INFO | (pkg/collector/worker/check_logger.go:40 in CheckStarted) | check:memory | Running>
Apr 23 09:56:49 ip-10-0-0-123.ap-northeast-1.compute.internal agent[6310]: 2026-04-23 09:56:49 UTC | CORE | INFO | (pkg/collector/worker/check_logger.go:59 in CheckFinished) | check:memory | Done r>
Apr 23 09:56:50 ip-10-0-0-123.ap-northeast-1.compute.internal agent[6310]: 2026-04-23 09:56:50 UTC | CORE | INFO | (pkg/collector/worker/check_logger.go:40 in CheckStarted) | check:io | Running che>
Apr 23 09:56:50 ip-10-0-0-123.ap-northeast-1.compute.internal agent[6310]: 2026-04-23 09:56:50 UTC | CORE | INFO | (pkg/collector/worker/check_logger.go:59 in CheckFinished) | check:io | Done runni>
Apr 23 09:56:51 ip-10-0-0-123.ap-northeast-1.compute.internal agent[6310]: 2026-04-23 09:56:51 UTC | CORE | INFO | (pkg/collector/worker/check_logger.go:40 in CheckStarted) | check:disk | Running c>
Apr 23 09:56:51 ip-10-0-0-123.ap-northeast-1.compute.internal agent[6310]: 2026-04-23 09:56:51 UTC | CORE | INFO | (pkg/collector/worker/check_logger.go:59 in CheckFinished) | check:disk | Done run>
Apr 23 09:56:52 ip-10-0-0-123.ap-northeast-1.compute.internal agent[6310]: 2026-04-23 09:56:52 UTC | CORE | INFO | (pkg/collector/worker/check_logger.go:40 in CheckStarted) | check:container_lifecy>
Apr 23 09:56:52 ip-10-0-0-123.ap-northeast-1.compute.internal agent[6310]: 2026-04-23 09:56:52 UTC | CORE | INFO | (pkg/collector/worker/check_logger.go:59 in CheckFinished) | check:container_lifec

アップグレードに伴うエージェントの再起動が正常に完了していることがわかります。

バージョンの確認
次に、バージョンを確認してみます。

datadog-agent version
Agent 7.78.0 - Commit: 88ace41f75 - Serialization version: v5.0.184 - Go version: go1.25.8

本記事執筆時点での最新バージョンである 7.78.0 へのアップグレードが確認できました。

まとめ

今回は Datadog Fleet Automation のアップグレードスケジューリング機能を試してみました。
スケジュールを設定するだけで複数ホストへのエージェントアップグレードを自動化できます。
ローリングデプロイ方式で順次実施されるため、一斉アップグレードによる影響も抑えられます。
スケジュール期間を業務影響の少ない時間帯に限定することで、安全にアップグレードを運用に組み込むことができます。
なお、開始時刻には若干のズレが生じる場合があるため、メンテナンスウィンドウには余裕を持たせて設定することをおすすめします。
多数のホストを運用している方は夜間メンテナンスウィンドウでの活用を検討してみてください。

本記事が参考になれば幸いです。

参考

https://docs.datadoghq.com/agent/fleet_automation/remote_management#upgrade-agents

この記事をシェアする

関連記事