最近のデータカタログの各種機能の有無を確認してみた(2024年4月時点)

2024.04.12

さがらです。

ここ1~2年は新しい製品のリリースが落ち着いてきた印象ですが、Modern Data Stack界隈ではたくさんのデータカタログ製品が存在しています。

私も2年くらい前に色々触って調査したものの、この2年間での各製品のアップデートが凄まじく「どの製品がどの機能を持っているんだっけ…?」と知識が怪しくなってきてしまっている状況です。

そこで、今回改めて各製品の公式ドキュメントをベースに、最近のデータカタログの各種機能の有無を確認してみたので、本記事でまとめてみます。

※注意事項:各製品のアップデートのスピードは本当に早いため、半年も経てば現時点で出来ていなかったことが出来ているようになっている可能性が高いです。最新の情報はご自身で確認の上、本記事は参考程度にご利用ください。

比較対象のデータカタログ

比較対象としては、以下のデータカタログを比較します。

これらのデータカタログに対して、以下の機能について見ていきます。また、基本的には標準機能として備わっている機能をベースに確認します。(API使えば出来そう、というレベルまでは確認していません。)

  • データリネージ
  • メタデータ管理効率化
  • メタデータの履歴管理
  • 各アセットの活用状況の可視化
  • インポート・エクスポート
  • カタログからDWHへのメタデータ連携
  • カタログからdbtへのメタデータ連携
  • dbt開発時の影響するアセットの確認
  • スキーマ変更の検知
  • チャットアプリ連携(Slack、Teams)
  • テスト関係
  • AI関係

データリネージ

最近のデータカタログは、ソーステーブルから末端のBIツールのダッシュボードまでのリネージを提供していることが多いです。一部のデータカタログは列レベルリネージも提供しています。

メタデータ管理効率化

どのデータカタログもGUI上でビジネスメタデータをタグやDescriptionとして登録する機能はもちろんありますが、類似するカラムのDescriptionを一括登録したり、事前定義した条件に合致する場合は自動でタグ付けを行ったり、という機能を持っているデータカタログもあります。

メタデータの履歴管理

データカタログを運用するうえで、誤ったメタデータに更新してしまったときなど、過去のメタデータを見たい場合があります。各データカタログは様々なアプローチでメタデータの履歴管理を行えるようになっています。

各アセットの活用状況の可視化

各テーブル・カラムがどれだけ使われているのかを可視化できる機能がデータカタログには備わっています。

インポート・エクスポート

データカタログに対してCSVなどのファイル形式でインポートしたり、逆にデータカタログ上で定義された情報をCSVなどのファイル形式でエクスポートする機能を提供しています。

カタログからDWHへのメタデータ連携

各DWHと連携してテーブルデータやクエリ履歴を取得する機能はほぼすべてのデータカタログが提供していますが、一部のデータカタログは、タグやdescriptionをカタログからDWHへ連携する機能を持っています。

カタログからdbtへのメタデータ連携

dbtではyaml上でテーブルやカラムに対するdescriptionを定義できますが、その情報をデータカタログに同期できる機能を最近のデータカタログはほぼ全て提供しています。一方で一部のデータカタログは、データカタログ上で定義したdescriptionを、dbtのyamlに書き戻す機能も備わっています。この書き戻し機能を各カタログが持っているかどうかについて、本章で記します。

dbt開発時の影響するアセットの確認

一部のデータカタログは、dbt開発時に影響するアセットを確認できる機能を提供しています。(主にGitHub Actionsを用いて)

スキーマ変更の検知

データ基盤を運用するうえで、突然ソースデータにおいてカラム追加やデータ型の変更が起きる場合があります。その際に一部のデータカタログはこれらの変更を検知できる機能が備わっています。

チャットアプリ連携(Slack、Teams)

SlackやTeamなどのチャットアプリと連携することで、チャットアプリからデータカタログ上のアセットの検索を行ったり、チャットアプリ上のスレッドをデータカタログに紐づけたり、ということが可能です。

テスト関係

一部のデータカタログでは、データカタログ経由でデータ品質をチェックするテストを行う機能が備わっています。(鮮度、最大・最小値の範囲内確認、カラム数確認、カスタムSQL、など)また、dbtやGreat Expectationsなどの外部ツールのテスト結果を連携できる機能は多くの製品が提供しています。

AI関係

昨今の生成AIの流行も受け、一部のデータカタログは生成AIを用いた機能を提供しています。

最後に

各製品の公式ドキュメントをベースに、最近のデータカタログの各種機能の有無を確認してみました。

実際に調べてみて、「あれ、今こんなことできるの!?」という発見も多くありました。(Teamsとの連携や、カタログからdescriptionをDWHに転送、などが特に驚きました。)

データカタログを検討する際の参考になると嬉しいです!