モダンデータスタック カテゴリ紹介 #12 『Data Cataloging(データカタログ)』 – Modern Data Stack Categories Overview Advent Calendar 2023

2023.12.12

当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 12日目のエントリです。

データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack/MDS)』という考え方、サービス構成が大きな注目を浴びています。データの収集、処理、保存、分析に使用されるツールとクラウドデータサービスを集めたソリューションを指す言葉です。クラスメソッドとしてもこのモダンデータスタック(Modern Data Stack/MDS)を推しており、下記の内容でお客様にサービスとして提供しています。

このモダンデータスタックという考え方、現在では構成するサービス群のジャンルが非常に多岐に渡ってきています。このカテゴリ分けも正直企業や個人によって定義が分かれていたりするのですが、『Modern Data Stack - Everything that you need to know !』というサイトではこのカテゴリ分類がシンプルかつ分かりやすく展開されています。このアドベントカレンダー企画では、このサイトで展開されているカテゴリ毎について内容を理解することで見識を広め、今後のサービス展開・サービス選択を検討する足掛かりとして行きたいと思います。

当エントリでは、Modern Data Stack(MDS)におけるカテゴリ『Data Cataloging(データカタログ)』の内容について紹介します。

目次

 

モダンデータスタック(Modern Data Stack/MDS)における『データカタログ』とは

アドベントカレンダー企画の趣旨については1日目のエントリ内『当アドベントカレンダー企画について』をご参照ください。

データカタログとは、企業がシステム内のデータをインベントリ(資産台帳・目録)化して整理するために使用するメタデータおよびデータ管理を行うサービスです。データカタログを導入することで、人々がデータを発見し、理解しやすくなります。

データカタログは一般的に、組織全体でデータがどのように使用されているかを把握するためのデータガバナンスツールと考えられています。しかし最新のデータカタログではガバナンスをはるかに超えて、最新のデータスタックの重要な構成要素となっています。データカタログは、データとデータを生成・消費するアプリケーションのオペレーティングシステムのようなものだと考えると良いでしょう。

その他データカタログの内容や特徴については以下の通り。

  • 昨今データカタログが求められている状況、背景
    • 最新のデータスタックによって、企業は拡張性、革新性、アクセス性に優れたクラウドネイティブなデータアーキテクチャを構築しやすくなってはいる
    • しかしながらデータの生産者と消費者が必要なデータをタイムリーに見つけられず、見つけてもデータを理解できなければ、最新のデータスタックの期待の多くは失われてしまう
    • データドリブンになるためには、企業全体がデータを使用して、明確、正確、迅速にビジネス上の疑問に答えられるようにする必要がある
    • そこでデータカタログの出番
  • 最新のデータカタログを導入することで期待、実現出来る側面と効果
    • データリソースの管理
      • 特にナレッジグラフを利用したデータカタログはデータリソースのマッピングと整理に役立つ
      • スタック内の他のアプリケーションに接続してクロールし、データと関連するメタデータを取り込んで、データ・リソースの全体像を把握することができる
      • ユーザーは迅速かつ容易に資産にタグ付けし、組織全体がアクセス可能なビジネス用語集で主要な用語が明確に定義されていることを確認できる
    • メタデータの管理
      • どのデータ資産がいつ作成されたのか、このリソースからどのような分析が導き出されたのか、その他のリソースはどのようなものかを示すことができる
      • 制限されたデータセットへのアクセスが必要なユーザーは、カタログ内から直接アクセスを要求することができ、会社のポリシーに応じて、アクセスを許可または拒否することができる
    • 主要なビジネス用語の定義
    • データセットへのアクセスの提供
    • データの発見性
      • 最新のデータカタログは、インジェストまたは仮想化によって、データリソースが存在する場所であればどこでも、人々をデータリソースに接続する必要がある
      • データ利用者は、SQLのような使い慣れた言語を使って連携クエリーを実行し、その結果をBIツールで可視化できるようにすべき
      • データと分析は、組織内の誰もが共有、再利用、コメントできるように発見可能になるはず
      • カタログはデータエコシステム全体を接続するため、最新のデータスタックの基本部分であり、DataOpsフレームワークを確立するために不可欠
    • 信頼性、理解性の向上
      • 最新のデータカタログは、データの定義や所有権だけでなく、データ、メタデータ、人、アプリケーション間の関係も文書化する必要がある
      • ナレッジ・グラフ・ベースのデータ・カタログを導入することでコンテキストに対応したデータとアナリティクス、合理化されたスチュワード・エクスペリエンスとワークフロー、データ・プロファイリング、サンプリング、ステータス・プロセスによる直感的なデータ健全性指標を促進することができる

データカタログの説明、解説については下記の情報等も参考になります。

 

MDSにおける主なデータカタログ系サービス

ここではモダンデータスタックにおける『データカタログ』のカテゴリで主だったサービスについて幾つか言及していきたいと思います。(ここでの評価はユーザーによるサイト内でのLIKEの数が多いものを中心に見ていきます)

 

Atlan

Atlanは、データチームのコラボレーションと企業データの民主化を支援する最新のデータワークスペースです。

Atlanは、テーブルやダッシュボードからモデルやコードに至るまで、データ資産の仮想ハブとして機能することで、チームがすべてのデータ資産のための単一の真実のソースを作成し、Slack、BIツール、データサイエンスツールなどのツールとの深い統合を通じて、最新のデータスタック全体でコラボレーションすることを可能にします。

また、Atlanは、DataOpsに関するガートナー社の初回レポートにおいて、クールベンダーに認定されており、世界でもトップ3に入る企業でもあります。

その他Atlanに関する基本的な情報は以下の通り。

また、AtlanについてはDevelopersIOでも検証ブログが公開されています。

 

Select Star

Select Starはデータディスカバリーとアナリティクスを可能にするインテリジェントなデータディスカバリー・プラットフォームです。データがどこにあり、どのように構造化され、どのように使用されているかを理解することが出来ます。主に以下の機能を提供しています。

  • データ・カタログ
  • データの透明性と可視性
  • 列レベルのデータ・リネージの自動検出と表示
  • 機密性を維持するためのデータ・セキュリティとガバナンス

その他Select Starに関する基本的な情報は以下の通り。

また、Select StarについてはDevelopersIOでも検証ブログが公開されています。

 

CastorDoc

CastorDocは、データスタック全体のメタデータを同期するAIベースのデータカタログです。チームがあなたのデータを見つけ、理解し、信頼できるようにします。

CastorDocは、数分でデータスタック全体とシームレスに統合します。すべてのツールからメタデータを自動的に取り込んで同期するため、組織全体が共同でデータを検索し、ナビゲートし、信頼することができます。

その他CastorDocに関する基本的な情報は以下の通り。

また、CastorDoc(2023年06月にCastorから名称変更があった模様)に関してはDevelopersIOでも数件、検証ブログを公開しています。

 

まとめ

という訳で、『Modern Data Stack Categories Overview Advent Calendar 2023』x日目の記事、データカタログに関する紹介エントリでした。

明日13日目は『Synthetic Data(合成データ)』に関する内容となります。お楽しみに!