「Splunk Business Service Insight Hands-on Workshop」オンラインワークショップを受講してみた
本記事では、Splunkが不定期開催している無料のハンズオンワークショップ「Splunk Business Service Insight Hands-on Workshop」で学んだ内容についてご紹介いたします。
Splunkの無料ハンズオンワークショップについて
Splunk Services Japanのソリューションエンジニアの方が、Splunkのソリューションテーマごとに非定期で開催しています。
講義内容は、オンラインで座学とラボ(ハンズオン形式)で構成されていて、講義時間はテーマによって設定されています。
お申し込みは以下のサイトから気になるものをクリックすると、フォームにて申し込みが行えます。
今回私は、Splunk Business Service Insight Hands-on Workshop を受講しました。
ワークショップの概要
- 所要時間: 3時間
- ワークショップの分類: IT
- 前提知識: Splunkの基本的な理解と知識。
※Splunkの基本知識に関するワークショップについては、Splunk Entry、Splunk Basicのワークショップがあります。(こちらも不定期開催)
学習内容
本ワークショップは以下の2つのパートで構成されています。
- 座学パート:
- Splunk ITSI (IT Service Intelligence) の概要
- ハンズオンパート:
- Splunk ITSIの操作方法
- Splunk ITSIを使ったトラブルシューティング
座学パート
座学パートでは、Splunk ITSI (IT Service Intelligence) の概要について学びます。主な内容は以下のとおりです。
- 組織が抱えるビジネス上の課題とSplunk ITSIの特徴
- Splunk ITSIでの用語
- Splunk ITSI
座学でのトピックス
- 組織のビジネス上でのITサービスを運用する中での課題
- サービスの健全性をリアルタイムで把握することはとても困難
- 原因と影響を結びつけることに苦労している
- Splunk ITSIが提供する価値
- データソースに含まれるインフラやアプリケーションのメトリクスをビジネスKPIにリアルタイムで結びつけることでパフォーマンスを確保
- 機械学習を用いてサービス品質の低下を予測し、エンドユーザー体験に影響を与えるインシデントを未然に防止
- インシデント発生時の優先度付け、MTTRの削減
- Splunk ITSIのコンセプト
- 様々なシステムからのログ、メトリクス、トレース情報を取得
- エンティティごとに、黄色・緑・赤などのシグナルで健全性を把握
- さらにKPIとして、黄色・緑・赤などのシグナルで健全性を把握
- さらにサービスでまとめて、サービス健全性スコアとして把握
- テクニカルサービスとビジネスサービスとを分けて識別
- テクニカルサービスの健全性→情報システム向けの指標として利用
- ビジネス・サービスの健全性→ビジネス側向けの指標として利用
- 複数のKPIの変化状況をアラートとして通知
- 上記のインサイトをインシデント管理やインシデント対応につなげていく
Splunk ITSIの用語
- エンティティ
- データを生成するオブジェクト
- サービス
- エンティティをグループ化した集合
- 組織のビジネス目標に関連し、まとめて監視する必要があるグループ
- サービスをテクニカルサービスとビジネスサービスに分けて識別
- サービスを構成する時のケースとエンティティの種類は以下を参考にできます
エンティティの種類 | 有用なケース |
---|---|
ホスト | 複数のサーバーでクラスタを組んでいる場合 |
デバイスタイプ | 問題がユーザーの接続方法に依存し得る場合 |
地域 | 特定のデータセンターやISPに依存する場合など、物理的な場所に依存しうる場合 |
バージョン | 実施されたソフトウェアの変更やパッチが原因となり得る場合 |
アクセス元 / 顧客 | 大切なお客様や取引先が影響を受けているかに注目したい場合 |
製品 / 商品 | KPI評価上、特定の製品/商品に注目をしたい場合 |
部署 / 業務処理 | KPIを業務毎に比較をしたい場合 |
- KPI
- Splunkで検索可能なパフォーマンス指標(CPU負荷率等)、ビジネス指標(売上等)
- 複数または単一のエンティティのメトリクスなどのステータスの統計値をKPIとして定義
- サービスとKPIの組み合わせ方例
- データベース
- メモリ使用率
- CPU使用率
- ディスク使用率
- DBクエリ数
- Webストア
- チェックアウト数
- Webチェックアウト率
- モバイルチェックアウト率
- 売上
- ドキュメント処理
- 処理ドキュメント数
- 処理失敗数
- 失敗率
- 通常からの乖離
- データベース
- 健全性スコア
- 複数または単一のKPI値に重みをつけてサービス健全性スコアとして数値化
ハンズオンパート
ハンズオンパートでのトピックス
- トップページ(サービスアナライザー)
ここでは、サービス毎のサービス健全性スコアをタイルビューで見れる。
「30」などは非常に低いスコア(障害状態)を表していて、それぞれのサービスのステータスが確認できる。
サービスでフィルタすることができる。
「サービスの依存関係を表示」にチェックすると、その他の依存しているサービス全てで表示することができる。
ツリービューにすると、依存関係とステータスを見やすくすることできる。
確認したいサービス(ステータス異常など)をクリックするとサービス健全性スコアや、サービス健全性スコアを構成するKPIを確認することができる。
KPIをクリックすると、そのKPIを構成するエンティティの一覧を確認することができる。
KPIやエンティティのメトリクスなどの統計値や、時間軸でのスパークラインも確認することができる。
「!」がついているものは、サービススコアの低下やKPIの低下の起因となっていることを表し、どのKPI・エンティティが関係しているのかが一目でわかる。
SAPで注文を発注したにも関わらず、製造システム側で期待通りに表示されないという問題がヘルプデスクからエスカレーションがあったというシナリオで調査を行う。
サービスアナライザーでSAPのサービスに注目する。
外部連携コンポーネント(IDOC)で障害が発生していることを確認します。
KPIが低下しているこを確認し、ディープダイブで詳細を見ます。
スイムレーンでサービスに紐づけられたKPIの全てを同じ時間軸でどの程度異常値が発生しているか、どのタイミングから発生しているのかを見ることができます。
11:15頃から障害が発生しているようです。
サービス以外に関連しそうなイベントやKPIを同時に表示させることで違った視点で相関分析ができます。
KPIレーンを追加して、ServiceNowの変更履歴に関するイベントを追加します。
イベントが発生したタイミングをクリックするとドリルダウンアクションとして、生ログの結果を表示することができます。
Firewall Ruleの変更があったことが確認できたので、FirewallでのKPIも同時に確認するために、ディープダイブにレーンを追加します。
Firewallでもサービスの異常が見れるため、障害の原因とサービスへの相関関係を明らかにすることができました。
その他、エグゼクティブ用レポート(グラステーブル)、KPIアラートの設定方法(機械学習による異常検出)、ITSIでのアラートの管理(エピソードレビュー)の概要について学ぶことができます。
以上でハンズオンは終了です。
まとめ
このトレーニングで以下の点を学びました。
- Splunk ITSIの概要と用語
- Splunk ITSIを使ったトレブルシューティング例と機能概要
今回、Splunk ITSIの概要について学ぶことができました。Splunk ITSIはプレミアムAppに当たるソリューションでライセンス利用料が必要になりますが、その分非常に洗練されたAppであると感じました。また、サービスとKPIについての設計部分が重要なポイントとなると感じましたので、その他のブログやトレーニングなどで知識を補完していくと良いと思いました。