データカタログのユニコーン企業「Collibra」のデモ環境を試してみた
本アドベントカレンダーのトップバッターは、US市場において有名なデータカタログ Collibra です。
そもそも、「データカタログって何?」という方のために軽く説明しておきますと、データカタログとはざっくり、 データベース・データレイク内のデータに対して、概要や特徴量、関連性などをまとめて一覧化しておくサービス です。え、それだけ?と思われるかもしれませんが、現代のデータ基盤はデータソースの数も増加してますし、BIなどから参照する分析用のデータ(データマート)の数も増加していることから、「とりあえずどんなデータがあるのか、ざっくり知りたいんだよね〜。」といったニーズが増えつつあります。
Collibraについて
Collibraは2008年にアメリカで創業された、データマネジメント領域のサービスを提供するスタートアップです。Slintel のデータによると、現在の顧客は1,000社を超えており、データカタログスタートアップ界隈の中ではかなり成功している企業の一つです。今年11月にシリーズGで$250Mの資金調達に成功しており、安定して企業運営できているみたいですね。
CollibraはCollibra Data Intelligence CloudというSaaSを提供しており、このプラットフォームに以下の6つのコンセプトを持った機能が組み込まれています。(製品として分かれているわけではありません。)
このうち、やはり中心のコンセプトとなるのは Data Catalog です。幅広い種類のDBやBI、MLツールと接続・連携できるコネクタや、機械学習によるメタデータやリネージの自動生成、ガバナンスやプライバシー関連の組み込み機能が設けられています。
Collibraでは Test Drive というデモ環境が用意されており、UIや機能を手触りで確認することができます。気になったらサクッと試せるのが良心的ですね。
デモ実演
Collibraの公式ページより Try Collibra
をクリックします。
ユーザー情報を入力し送信すると、アカウント情報が含まれるメールが届きます。URLにアクセスし、ログイン画面でユーザー名とパスワードを入力すると、デモ環境に入ることができます。
ご自身で触ってみたい方は、Start your Test Drive
と の Use case
のフローに沿って実施してみると理解が深まるかと思います。
本記事では、機能的に制限はあるものの、UIからどういうサービス構成になっているのかを紐解いていきます。
まず画面上部には、左から以下の8項目が並びますが、 Browse と Search が基本的な機能となります。呼称が不明なものは(?)
としています。
- Home
- クリックするとホーム画面に遷移する
- Browse
- Organization(組織)視点とAsset(アセット)視点からメタデータを探索できる
- Search
- キーワードでメタデータを検索
- Tasks
- 自分に割り当てられたTodoが表示される
- Activities
- 他のユーザーが何を作成したなどのアクティビティ情報の画面
- Help/Info (?)
- ドキュメントやラーニングリソースにアクセス
- Account
- ユーザー情報やログアウト
- Menu (?)
- Business Glossary(ビジネス用語集)やCatalog(カタログ)など、Collibraの他のUIにアクセスするためのメニュー
Browseでは、組織またはアセットの種類ごとに、メタデータを一覧で確認することができます。デモ環境では例えば、Business Analysts Community
とCorporation Inc.
という2つの組織が保有するアセットを階層構造で見ることができます。
Searchは、その名の通り検索バーです。アクティブにすると最近アクセスしたアセットが表示され、一文字打つごとに裏でクエリが走るインタラクティブな仕様になっています。
HR Analytics Workbook
をクリックすると、その詳細ページに飛びます。
See all results for "HR"
か虫眼鏡のアイコンをクリックすると、検索結果画面に飛びます。
この流れで検索画面について見ていきます。上は、「HR」と検索した時の結果です。上の状態では何もフィルタリングがかかっていないので、「HR」に当てはまる全てのアセットやメタデータが表示されています。
フィルタリングを行う箇所は以下の2箇所。左側のパネルでは組織やカテゴリ、ステータス、日付、作成者、タグなどで絞り込みができるようになっています。
上部のFilterは左のパネルと連動しているようで、例えばCatalog
を選択すると左パネルの一部アセットにチェックマークが入ります。
デモ環境ではTableauの情報がかなり入っていますが、まずは基本としてデータベースのテーブルを見に行きたいので、HR_ANALYTICS
のスキーマを選択します。
HR_ANALYTICS
の詳細画面です。項目数が多いので、スキーマの画面で見れる情報を箇条書きでまとめておきます。
Summary
- Description: スキーマの概要
- Tables: スキーマに属するテーブル一覧
- Owner: スキーマの所有者
Details
- Summaryと重複する項目
- belongs to Technology Asset: 親アセット情報
- Tags: タグ情報
- Ratings: アセットに対する評価
- Comments: ユーザーからのコメント
Tables
: テーブル一覧- Summaryと重複する項目
Diagram
- データのリネージ情報が参照できる
Responsibilities
- このスキーマのステークホルダー情報(ガバナンス用途?)
Files
- スキーマ情報に対してファイルをアップロードできるみたい?
Summaryの画面は、他の画面にある代表的な項目がまとまっています。
Detailsではタグの付与やコメントの追加が可能みたいですね。
データカタログといえば、データのリネージ情報の生成が主力機能だったりしますが、Collibraの場合はDiagram
の画面で閲覧することができます。ベン図的な表現で階層構造とサービスを括っているのが特徴的です。
さらに掘り進んでいきましょう。次はテーブルレベルの情報として、EMPLOYEE
を見てみます。テーブル情報の画面では、そのカラムに関するメタデータやサンプルデータが表示されます。その他はスキーマで表示される情報とあまり変わりません。
テーブル情報の内、AGE
のカラム情報を開いてみました。数値系のデータに関しては、良い感じに分布のグラフを表示してくれます。
Detail
には概要やタグに加えて、PIIなどのコンプラインアンス情報やセキュリティ要件に関するメタデータが付与されています。
このカラムレベルがカタログの最下層のアセットとなりますが、スキーマから逆に親情報を辿ることももちろん可能です。HR_ANALYTICS
の親はDWH_PROD
というデータベース層です。このデータベースレベルでデータソース情報と紐づいています。先ほどのまでのスキーマ・テーブルは、Snowflakeの情報だったみたいですね。
DWH_PROD
のさらに上にはSystemというカテゴリがあり、これが最上位のアセットとなるみたいです。オンプレ環境を考えた時に、DWHをホストしているシステムの情報でしょうか。そのためSnowflakeの場合は、LocationがSaaSとなっています。
基本的なアセットの表示については以上です。これらのアセットをまとめて、もう少し良い感じなランディングゾーンにしたのが、メニューにあるCatalog
です。こちらをクリックしてみます。
CatalogのHome画面では、最近見た項目やレポート、データソースなどがカード形式にまとめられて表示されています。
タブを切り替えてReports
にしてみると、Tableauのワークブック一覧が表示されます。試しにHR Analytics Workbook
の中身を見てみます。
先ほどのテーブル情報などと同様、こんな感じにメタデータが表示されました。Imageではグラフの画像ファイルを添付しているみたいです。
デモ環境にはTaskなど他にも機能がありますが、本ブログでの紹介は以上にしておきます。もっと知りたい方はご自身で触ってみてください!
所感
実際にCollibraのデモ環境を触ってみて、機能がかなり豊富かつ細かく用意されていると感じとれました。創業から10年以上経っていることもあり、データマネジメント・ガバナンスに必要な機能は一通り揃っていそうですね。CollibraではKPIという括りのメタデータも扱えるようで、ビジネス志向の機能も充実していそうだなという印象です。
本アドベントカレンダーでは、今話題のデータ関連SaaSを取り上げていきますので、引き続き乞うご期待ください!