豊富なメタデータを表ベースで整理するデータカタログ「OvalEdge」を触ってみた

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

本記事では、データカタログサービス OvalEdgeを扱っていきます。

そもそも、「データカタログって何?」という方のために軽く説明しておきますと、データカタログとはざっくり、 データベース・データレイク内のデータに対して、概要や特徴量、関連性などをまとめて一覧化しておくサービス です。え、それだけ?と思われるかもしれませんが、現代のデータ基盤はデータソースの数も増加してますし、BIなどから参照する分析用のデータ(データマート)の数も増加していることから、「とりあえずどんなデータがあるのか、ざっくり知りたいんだよね〜。」といったニーズが増えつつあります。

OvalEdgeについて

OvalEdgeは、2013年にアメリカのジョージア州で創業されたデータの民主化を実現するための製品を開発するテックカンパニーです。2018年にFutureTech Holding Companyに買収されたため、現在はその子会社として事業を動かしています。

Data Catalog Company OvalEdge Gets Acquired by FutureTech Holding Company, Setting Ground for Rapid Growth | Markets Insider

創業から8年も経過していることもあり、OvalEdgeはインテグレーション数が多かったり、メタデータ管理やガバナンスに関する機能も無難に提供されています。無料で使えるデモ環境が用意されていたので、さっそく触ってみました!

デモ実施

公式HPよりTRY OVALEDGEをクリックします。

ユーザー情報を入力して登録すると、認証用リンクがメールで送信されてきます。

認証リンクをクリックしてパスワードを登録すると、ログイン画面にランディングします。

ログイン後、ホーム画面にランディングしました。パッと見何ができるのかよくわからないので、左のメニューを順繰り見ていくことにします。まずはData Catalogです。

Data Catalogを開くと、OvalEdgeに登録されているデータベース・スキーマが表形式で表示されます。タグやビジネスメタデータのほか、様々なメタデータが付与されています。試しにOracle DBのSAKILAスキーマをクリックしてて中身を見ていきます。

SAKILAのスキーマの詳細画面です。画面上半分にはスキーマに対するメタデータが表示され、画面下半分にテーブルとそれぞれのメタデータが一覧化されています。PopularityImportanceという、定性寄りの指標が数値化されているのが興味深いですね。

タブを切り替えるとそのテーブルに対して実行されたクエリ一覧やプロシージャなども確認できます。

続いてテーブルの一覧の中からACTORをクリックし、テーブル詳細画面に入ります。画面上部では、先ほど表で表示されていたメタデータに加え、Nullの割合や付与されているタグが表示されています。画面下半分はカラム一覧になっており、統計情報も確認することができるようになっています。

上部のタブでDataをクリックすると、テーブルのプレビュー画面に切り替わります。

Entity Relationshipsでは、テーブルとテーブルの類似度やSQLのJOINの頻度を集計して、テーブル間の関連性を可視化する機能です。

Column DetailsではUIの構成が変わり、カラムの詳細情報が表示されるようになります。

Column Detailsも様々な機能が用意されており、例えばRelationshipsのタブをクリックすると、他テーブルのカラムとのマッチング度を確認することができます。

先ほどまでのスキーマ・テーブル・カラムの一覧は、Catalogの画面のタブでも表形式で閲覧することができます。他にもリソース情報が一覧化されているので、次にTableau関連の情報を見ていきます。SuperStore Summaryをクリックします。

Tableauのレポート情報画面は、構成はテーブルと似ていますが、表示されるメタデータが微妙に違っています。

Lineageをクリックすると、テーブルとレポートの依存関係をグラフで見ることができます。

Catalog最初の画面からクエリにもアクセス可能です。クエリレベルのリソースにも各種メタデータが付与できます。

続いて、左メニューよりBusiness Glossaryを見ていきます。

Business Glossaryはその名の通り、ビジネス用語集を作成できる機能です。DomainやCategoryで細かめに階層化できるのが特徴的ですね。

詳細画面では、単語に対する説明を書けるのはもちろん、タグを付与したり関連のある他の単語を紐づけたりすることができます。

続いてはData Storiesです。

Data Storiesは、一言で言えばドキュメントやレポートのような機能ですね。ワードのようなフォーマットも可能です。

DashboardからAll Reportsをクリックすると、先ほども表示されていたTableau関連のリソース情報に繋がります。

ちょっと短めですが、ご紹介は以上とします。その他、ガバナンス系の機能やコネクタも存在しているので、興味のある方は公式ドキュメント等も参考にしながら実際に試してみてください。

Getting Started with OvalEdge Data Catalog Quickly

所感

リネージなどはグラフィカルで良い感じでしたが、他は基本的に表形式で表示する画面がほとんどなので、エクセルのような表形式が好きな方には使いやすいデータカタログかもしれません。

本アドベントカレンダーでは、今話題のデータ関連SaaSを取り上げていきますので、引き続き乞うご期待ください!