モダンデータスタック カテゴリ紹介 #21 『Data Quality Monitoring(データ品質監視)』 – Modern Data Stack Categories Overview Advent Calendar 2023

2023.12.21

当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 21日目のエントリです。

データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack/MDS)』という考え方、サービス構成が大きな注目を浴びています。データの収集、処理、保存、分析に使用されるツールとクラウドデータサービスを集めたソリューションを指す言葉です。クラスメソッドとしてもこのモダンデータスタック(Modern Data Stack/MDS)を推しており、下記の内容でお客様にサービスとして提供しています。

このモダンデータスタックという考え方、現在では構成するサービス群のジャンルが非常に多岐に渡ってきています。このカテゴリ分けも正直企業や個人によって定義が分かれていたりするのですが、『Modern Data Stack - Everything that you need to know !』というサイトではこのカテゴリ分類がシンプルかつ分かりやすく展開されています。このアドベントカレンダー企画では、このサイトで展開されているカテゴリ毎について内容を理解することで見識を広め、今後のサービス展開・サービス選択を検討する足掛かりとして行きたいと思います。

当エントリでは、Modern Data Stack(MDS)におけるカテゴリ『Data Quality Monitoring(データ品質監視)』の内容について紹介します。

目次

 

モダンデータスタック(Modern Data Stack/MDS)における『データ品質監視』とは

アドベントカレンダー企画の趣旨については1日目のエントリ内『当アドベントカレンダー企画について』をご参照ください。

データ品質監視は、組織がシステム内のデータの健全性をチェックするために使用するプロセスであり、DevOps Observabilityのベストプラクティスをデータパイプラインに適用することで、データのダウンタイムを排除する事を促進します。

データ・システムがますます複雑化し、企業がますます多くのデータを取り込むようになるにつれて、データ・チームは、「データ・ダウンタイム」(言い換えれば、データが欠落している、不正確である、陳腐化している、またはその他のエラーが発生している期間)を監視し、アラートを出し、根本原因を突き止め、ダウンストリームのデータ・コンシューマーに影響を与えないようにする、総合的でエンドツーエンドの方法も必要とするようになりました。

データ品質監視は、組織がシステム内のデータの健全性を完全に理解する能力であり、DevOpsオブザーバビリティのベストプラクティスをデータパイプラインに適用することで、データのダウンタイムを排除します。DevOpsと同様に、データ・オブザーバビリティは、自動化されたモニタリング、アラート、トリアージを使用して、データ品質と発見可能性の問題を特定・評価し、より健全なパイプラインと生産性の高いデータチームを実現します。

データ品質監視に関するその他ポイント・要点は以下。

  • データ観測性の5つの柱:これらの要素を組み合わせることで、データの品質と信頼性に関する貴重な洞察を得ることができる
    • 鮮度:
      • データテーブルがどの程度最新であるか、またテーブルがどの程度の周期で更新されているか
      • 詰まる所、古いデータは基本的に時間とお金の無駄と同義
    • 分布:
      • データの取り得る値の関数で、データが許容範囲内にあるかどうか
    • ボリューム:
      • データテーブルの完全性を意味し、データソースの健全性を洞察
    • スキーマ:
      • スキーマの変更は、多くの場合データの破損を示す/誰がいつこれらのテーブルに変更を加えたかを監視する必要がある
    • リネージ:
      • 上流ソースと下流インジェスターが影響を受けたか、またどのチームがデータを生成し、誰がそれにアクセスしているかを示すことで、その答えを提供
      • 優れたリネージは、特定のデータテーブルに関連するガバナンス、ビジネス、技術的なガイドラインを示すデータに関する情報(メタデータ)を収集し、すべての利用者にとって単一の真実のソースとなり得る
  • なぜデータチームに観測可能性が必要なのか?テストだけで十分ではないか?
    • 単体テストだけではソフトウェアの信頼性が不十分であるのと同じように、データテストだけではデータパイプラインの破損を防ぐことはできない
    • コードベース全体にわたるアプリケーションのモニタリングと観測可能性がなければ、真に信頼できるソフトウェアができないのと同じように、データインフラ全体にわたるデータのモニタリングと観測可能性がなければ、完全なデータの信頼性を達成することはできない
    • 現代のデータチームに両方が必要な理由
      • データは頻繁に変化する
      • エンドツーエンドのカバレッジは重要である
      • データテストの負債
  • 一般的なデータ観測可能性のユースケース
    • パイプラインのどこでデータが破損したかを理解
    • バグコード、運用要因、データそのものなど、データ・インシデントの根本原因を特定
    • データの健全性と品質に関するステークホルダーからの質問に答える
      • このダッシュボードはどうなったのか?
      • なぜレポートが更新されないのか?
      • なぜ計算がおかしいのか?
      • どのチームがこのデータセットを更新したのか?
      • なぜパイプラインが壊れたのか?
      • なぜデータが消えたのか?
    • 上流のソースとデータウェアハウス/レイク、下流のレポートやダッシュボード間の依存関係を、フィールドレベルまで自動的にマッピング
    • データの問題に対する影響分析、つまり、どのレポートやダッシュボードが上流のデータセットに接続しており、パイプラインが壊れた場合に影響を受けるかを理解
    • データ環境の運用分析を追跡するために、主要な利害関係者にデータの信頼性に関するハイレベルな概要を説明
    • 不測の事態やサイレント・インシデントが発生した場合に、データに対する保険を提供することで、テストを補完

 

MDSにおける主なデータ品質監視系サービス

ここではモダンデータスタックにおける『データ品質監視』のカテゴリで主だったサービスについて幾つか言及していきたいと思います。(ここでの評価はユーザーによるサイト内でのLIKEの数が多いものを中心に見ていきます)

 

PipeRider

PipeRiderはdbtデータプロジェクトのためのデータ影響評価ツールです。dbtプロジェクトのデータモデリング変更前と変更後のデータを比較し、影響レポートとサマリーを生成します。生成されたレポートを使用して変更を検証し、予期せぬ影響を受けることなく、自信を持ってプロッドにマージすることができます。以下の機能や特徴を兼ね備えています。

  • データソースをプロファイリングし、高度にカスタマイズ可能なデータ品質アサーションを作成し、洞察に満ちたレポートを作成
  • データの形状を一度定義すれば、データ・チェック機能を使ってデータ品質の変化を警告することができる

その他PipeRiderに関する基本的な情報は以下の通り。

 

Validio.io

Validioはディープ データ オブザーバビリティ プラットフォームです。自動化されたリアルタイムのデータ検証と品質モニタリングにより、不良データを排除することを使命としています。以下の特徴や機能を兼ね備えています。

  • 実際のデータとメタデータを処理/処理
  • データストリーム、レイク、およびウェアハウス内のデータをエンドツーエンドで検証
  • 構造化データと半構造化/ネストされたデータを検証
  • 分ごと、時間ごと、週ごとなど、いくつかの頻度でデータを検証
  • GUIまたはCLIインターフェイスからアクセス可能
  • 自動化を第一に考えて構築、強力なカスタマイズ機能

その他Validioに関する基本的な情報は以下の通り。

 

Sifflet

Siffletは、データ品質モニタリングを実用化し、データチームのリソースを最適化するために設計された、データ観測可能性プラットフォームです。企業がデータをより信頼できるものにし、データ主導の意思決定を迅速化することを使命としています。私たちは、データ品質監視を自動化し、データエンジニアとデータ消費者の両方に実用的な洞察を送るためにMLに依存しています。

その他Siffletに関する基本的な情報は以下の通り。

 

Monte Carlo Data

Monte Carlo Dataは、データの健全性を監視し、その品質を保証するデータ信頼性プラットフォームです。製品の特徴として以下の機能を兼ね備えています。

  • 収益損失防止とセキュリティ
  • データ導入
  • ダウンタイム削減
  • データセキュリティ
  • データフロー監視など

また、BIツール、データウェアハウス、データレイクなども提供しています。

DevelopersIOではMonte Carlo Dataに関するブログも投稿しています。

その他Monte Carlo Dataに関する基本的な情報は以下の通り。

 

まとめ

という訳で、『Modern Data Stack Categories Overview Advent Calendar 2023』x日目の記事、Data Quality Monitoring(データ品質監視)に関する紹介エントリでした。

明日22日目は『Data Streaming(データストリーミング)』に関する内容となります。お楽しみに!