モダンデータスタック カテゴリ紹介 #19 『Data Discovery(データディスカバリー)』 – Modern Data Stack Categories Overview Advent Calendar 2023

2023.12.19

当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 19日目のエントリです。

データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack/MDS)』という考え方、サービス構成が大きな注目を浴びています。データの収集、処理、保存、分析に使用されるツールとクラウドデータサービスを集めたソリューションを指す言葉です。クラスメソッドとしてもこのモダンデータスタック(Modern Data Stack/MDS)を推しており、下記の内容でお客様にサービスとして提供しています。

このモダンデータスタックという考え方、現在では構成するサービス群のジャンルが非常に多岐に渡ってきています。このカテゴリ分けも正直企業や個人によって定義が分かれていたりするのですが、『Modern Data Stack - Everything that you need to know !』というサイトではこのカテゴリ分類がシンプルかつ分かりやすく展開されています。このアドベントカレンダー企画では、このサイトで展開されているカテゴリ毎について内容を理解することで見識を広め、今後のサービス展開・サービス選択を検討する足掛かりとして行きたいと思います。

当エントリでは、Modern Data Stack(MDS)におけるカテゴリ『Data Discovery(データディスカバリー)』の内容について紹介します。

目次

 

モダンデータスタック(Modern Data Stack/MDS)における『データディスカバリー』とは

アドベントカレンダー企画の趣旨については1日目のエントリ内『当アドベントカレンダー企画について』をご参照ください。

データディスカバリーは、データを一元化し、一箇所で管理するプロセスです。ウェアハウスやBIツール、ETLレイヤーの上に位置する形となり、データのアグリゲーター(集める、合計する、集計するもの)として機能します。データディスカバリーツールを使うことで、サイロ化されたツールからメタデータを抽出し、データ利用者が異なるツールにジャンプすることなく、このメタデータを検索できるようになります。

その他基本的なポイントや特徴は以下の通り。

  • 優れたデータディスカバリーツールを使うことで、ユーザーはデータアナリストがいなくても以下の質問に答えることができるようになる
    • このデータはどのように使用するのか?
    • 誰がこのデータをよく使うのか?
    • どのようなデータを使うべきか?
    • このデータは信頼できるのか?
    • (このデータの最終更新日はいつか?
    • 類似のリソースには何があるか?
    • このデータには機密情報が含まれていますか?
    • この列の意味は?
    • このデータはどこから来たのか?
    • このデータは何に影響しますか?
  • データディスカバリーツールを取り入れるメリット
    • データの検出と管理に費やす時間が削減されること
    • 従業員が間違ったデータを使用して間違いを犯す可能性が低くなること
    • 従業員エンゲージメントに関するデータ検出ツールにおける追加利点
      • 新入社員は命名規則の微妙な違いを学ぶために何週間もかけて関係者との会議を予約する必要がなくなり企業のデータ検出ツールに時間を費やして、すべての重要な情報を数日で学習できるようになる
      • データ検出ツールの利点は、チームがより効率的で透明性があり、自給自足できること
      • チームがリモートワークを採用し続けるにつれて、データ検出ツールは、チームが同じ場所にいないときに同じ認識を得るのに役立つ重要なツールになる
  • データディスカバリーのベストプラクティス
    • データディスカバリーツールがデータスタックの全体像を作成し、情報を探している誰もが利用できるようにすること
    • チームは誰もが使いやすいデータディスカバリーツールを採用すべき
    • データ発見ツールのゴールは、誰でもデータを見つけられるようにすること、つまりツールが発見プロセスを複雑にしすぎてはいけない
      • いくつかのツールは、データディスカバリーツールをSlackに接続できるようにしており、ユーザーはSlack上で変更点、新しいドキュメント、さらにはデータの検索に関する最新情報を得ることができる
  • チームがデータディスカバリーツールを評価するために使用すべき主なベクトル
    • 統合数
    • 価格
    • 自動ドキュメンテーションの量
    • ガバナンス機能
    • 直感性
    • 検索機能

 

MDSにおける主なデータディスカバリー系サービス

ここではモダンデータスタックにおける『データディスカバリー』のカテゴリで主だったサービスについて幾つか言及していきたいと思います。(ここでの評価はユーザーによるサイト内でのLIKEの数が多いものを中心に見ていきます)

 

CastorDoc

アドベントカレンダー12日目「Data Cataloging(データカタログ)」、14日目「Data Privacy and Governance(データプライバシーとガバナンス)」で登場したCastorDocがここでも登場です。

詳細は下記エントリをご参照ください。

 

Metaphor

Metaphorは、データサイエンティスト、データエンジニア、AI実務者のために構築された検索・発見ツールです。組織のデータエコシステムの記録システムとして機能する最新のメタデータプラットフォームです。Metaphorは、データ環境を完全に可視化し、データ作成者とデータ利用者の両方がより効果的かつ効率的に作業できるようにします。

Metaphorの特徴は以下の通り。

  • データエンジニアにとって、Metaphorは迅速かつ正確な影響分析を可能にし、データの消費パターンやリソースの利用状況などの重要な洞察を提供
  • データアナリストや科学者、ビジネス関係者にとっては、技術的なメタデータとビジネス上のコンテキストを統合し、データプロダクトをいつ、どのように使用するかの意思決定に役立てることができる
  • 採用を促進するために、Metaphorは、使いやすいウェブアプリケーションに加えて、Slack、Looker、Notebooksなどの既存のツールやワークフローにこれらのインタラクションをシームレスに直接組み込む

その他、Metaphorに関する基本的な情報は以下の通り。

 

Secoda

Secodaは、メタデータ、クエリ、チャート、ドキュメントをどの社員とも簡単に共有できる、データチームのためのコラボレーション・ワークスペースです。この製品は自動的にデータを文書化し、管理し、発見します。この製品の特徴には以下のようなものがあります。

  • コラボレーション
  • コード不要の統合
  • データ系統
  • 関連テーブル
  • その他の重要情報の自動生成
  • 古いデータ、ドキュメント化されていないデータ、重複データに関する通知など

その他Secodaに関する基本的な情報は以下の通り。

 

Atlan

Atlanもアドベントカレンダー12日目「Data Cataloging(データカタログ)」に続いての登場です。

詳細は下記エントリをご参照ください。

 

まとめ

という訳で、『Modern Data Stack Categories Overview Advent Calendar 2023』19日目の記事、データディスカバリーに関する紹介エントリでした。

明日20日目は『Business Reliability/Observability(ビジネスの信頼性/観察可能性)』に関する内容となります。お楽しみに!