[レポート]今年登場の長期サポート版Zabbix 4.0をハンズオンで体験してみよう! #JTF2018
こんにちは、坂巻です。
先日開催されたJuly Tech Festa 2018。
こちらで行われたセッション「今年登場の長期サポート版Zabbix 4.0をハンズオンで体験してみよう!」に参加しましたのでレポートします。
概要
OSSで一番使用されている運用監視ツールというだけではありません。IT系ニュースサイトのアンケートでは他の有償製品肩を並べるまでに成長しています。「触ってみたいと思っていたけど、スタートダッシュに遅れてしまった・・・」 そんなた方々も大丈夫です! このハンズオンでは先月出たばかりの4.0新機能を使用し、皆さんにもOSSの運用監視を体験して頂きます。
はじめに
ハンズオン用の端末が一人一台用意されていました。
スライドに映された内容が、自席に設置されたタブレットにも映されています。
快適な環境です。
セッション開始前に、Zabbixの利用にあたり覚えておいてほしい用語の解説がありました。
- ホスト…監視を行う対象のサーバやデバイス。IPアドレスやDNSを設定する
- アイテム…監視対象ホストに対する監視項目位、CPU空き率、メモリ使用率などの単位で設定する
- トリガー…アイテムで取得したデータに対する閾値設定
- イベント…トリガーが閾値を越えた/下回った場合に、内部的に生成される障害/復旧のインシデント履歴
- アクション…イベントが生成された場合に実行される障害通知メール、コマンド実行などの設定
レポート
Agenda
- Zabbixとは
- 追加された新機能について
- ハンズオン
- タグ機能の活用
- 1つのアイテムで複数データ取得
- ダッシュボードのカスタム
Zabbixとは
- エンタープライズで使用可能なOpen Source監視ソフト
- ほぼすべてのプラットフォームと監視方法をサポート
- プロキシによる分散監視
- 収取から障害通知までプロアクティブな監視が可能
現在まで
- 1998…First line of code!
- 2001…Zabbix 1.0alpha1
- 2004…Zabbix 1.0
- 2005…Zabbix Company established
- 2012…Zabbix Japan LLC 立ち上げ
- 2015…USAオフィス立ち上げ
- 2016…Zabbix 3.0(LTS) リリース
- 2016…Zabbix 3.2 リリース
- 2017…Zabbix 3.4 リリース
- 2018…Zabbix 4.0(LTS) リリース予定
追加された新機能について
追加及び改善された機能数
- Zabbix 3.2…41
- Zabbix 3.4…70
- Zabbix 4.0…77
※ 4.0については2018年7月現在の Alpha8の数値
主な追加機能
- トリガー設定の強化
- 復旧条件式の追加
- タグ機能の追加
- 手動での障害クローズ機能追加
- プロキシの強化
- プロキシ経由のリモートコマンド許可
- 1つのプロキシから複数Zabbixサーバへの送信許可
- アイテムの取得機能
- 1アイテムで複数データを取得
- 監視データ保存時に、値を任意にカスタマイズ
- GUI強化
- ダッシュボードのレイアウト変更
ハンズオン タグ機能の活用
監視対象サーバ2台のうち、1台が正常になった場合を正常とする設定をタグ機能を活用して行いました。 (2台程度であればトリガー条件式だけでも行なう事もできるが、サーバ台数が多いと難しい)
タグの設定
- イベントタグとは
- イベントに対してタグ付けが可能
- トリガーへ設定
- 関連づけられたタグにより、まとめて解決済みにする事が可能
- タグの値には、マクロの使用が可能
- イベントタグ設定
- [設定]をクリック
- [ホスト]をクリック
- 対象ホストの[トリガー]をクリック
演習 ホストの登録(1)
ホストを作成し、テンプレートをリンクさせました。
テンプレートについての解説もありました。
- 設定の雛形。ホストへ適用させる事で、アイテム・トリガー・カスタムグラフ等の設定情報を一括反映する事が可能
- 作成したテンプレートは、xmlでのエクスポート(バックアップ)・インポート(リストア)が可能
演習 ホストの登録(2)
テンプレートに設定された、アイテムの内容を確認しました。
- アプリケーションから出力されるログを2種類監視
- /opt/training/application01.log
- /opt/training/application02.log
演習 ホストの登録(3)
テンプレートに設定された、トリガーの内容を確認しました。
- 取得したログに「error」か「critical」が含まれている場合は障害
- タグ[Messages]へログ内の特定箇所を正規表現で抽出し登録
- タグ[Host]へは障害発生ホスト名を登録
演習 イベントの相関関係の作成(1)
イベントの相関関係を作成しました。
設定内容は失念してしましましたが、どのタグで、どういった情報だった場合に、クローズにするような設定を行いました。
復旧状態の確認
監視中のログにメッセージを書き込んでもらいました。
ログ監視アイテムのどちらかのタグに「down」では無く、「up」を含んだ状況をつくり、イベントの相関関係のイベントクローズ設定により、双方のトリガーイベントを「解決済」として消し込む事を確認しました。
ハンズオン 1つのアイテムで複数データ取得
- 保存前処理とは
- 1つのアイテムで複数のメトリクスを保持している場合、複数アイテムに分散して保持することが出来る
- 接続先とのコネクションを1度で済ませる事が可能
- json、xml、正規表現等でパースした情報を分散保持が出来る
- 複数保持したマスターアイテムは、保持期間を1日とする事で無駄なデータの保持を避ける事が可能
- アイテム
- 監視タイプ「HTTP agent」で、zabbix apiのuser.loginメソッドを呼び出し、jsonデータを取得
- ログインユーザとパスワードには、ユーザマクロを使用
- 更新間隔
- 更新間隔は1d(1日)で設定
- 今すぐにデータ収集を行いたい場合は、「check now」ボタンを活用
ハンズオン ダッシュボードのカスタム
ダッシュボードのカスタマイズ
- トップページの自由度向上
- ダッシュボードへ、様々な表示が可能に
- 非公開・公開・指定ユーザや指定グループへの公開が選択可能
カスタマイズの手順の説明があり、簡単な設定でカスタマイズできることがわかりました。ただ、サーバ(ノートPC)に負荷がかかりすぎて、当日は確認する事ができませんでしたwダッシュボードに表示する項目を増やすと、サーバに負荷がかかるので、表示が遅くなったら、サーバのメモリを増やすようにと案内がありました。
さいごに
新機能に絞ったハンズオンで、関連する用語についても丁寧な説明がありました。
来年のJuly Tech Festaにも期待です!!