データカタログ機能・Tableau Catalogにできること

データカタログやってみよう!
2021.01.08

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

ソリューション部・新納(にいの)です。

近頃データカタログについて調べる機会があり、その一環でTableau Catalogを触ってみたので備忘録として始めてみたブログを書き残そうと思います。

前提条件

本エントリの執筆にあたって使用した環境は以下の通り。

  • Tableau Server 2020.4
    • Windows Server 2019(Amazon EC2)
    • m5.2xlarge
  • Tableau Desktop 2020.4

Tableau Catalogとは

データカタログとしての機能を提供するTableau Server/Onlineのアドオンライセンスです。使用するにはTableau Data Management Add-onの購入が必要となります。

Tableau Catalog を使用することで、Tableau で使用されているすべてのデータの包括的なビューを取得できます。また、リネージ、インパクト分析、使用状況の指標など、それぞれの分析とデータの関連性を把握できます。組織の全員からの信頼性を高められるとともに、適切なデータを見つけられるようになります。

(引用元:Tableau Data Management: Tableau Prep Conductor と Tableau Catalog が含まれています。

そもそもデータカタログとはデータ自体のの辞書のようなものであり、組織内に存在するデータを管理する役割を持ちます。Tableau Catalogを使ってTableauで使用しているデータを管理することで「このデータを使ってこんな分析ができそうだな」「このデータソースなら信頼できるぞ」というように、分析そのものの信頼性を担保したり、どこにどんなデータがあるのか把握しておけるというメリットがあります。

Tableau Catalogを理解するためのキーワード「メタデータ」

Tableau Catalogを語る上で欠かせないのがメタデータの概念です。メタデータとはざっくり説明するとデータに関するデータであり、例えば、データソースのテーブル名やカラムの名称などが該当します。

Tableau Catalogではこのメタデータを収集し、Tableau Server/Online上で公開します。これにより利用ユーザーはデータ分析に使用するデータに対して理解を深められます。

Tableau Catalogで確認可能なメタデータは以下の通り。

  • リレーションシップ(データの系列情報)
    • 特定のデータソースがどのフローを経てどのワークブックが作られているか確認可能
  • スキーマ情報
    • テーブル名、カラム名、データ型など
  • ユーザーが追加した情報
    • データソースの説明、ユーザー連絡先など

Tableau Catalogを有効化する

先述した通り、Tableau CatalogはTableau Server/Onlineのアドオンですのでいずれかを使用できる環境が必要です。

Tableau Onlineの場合

Tableau Onlineで有効化する場合は特に必要な作業はありません。Data Management Add-onライセンスが有効化されればTableau Catalogも自動的に使えるようになります。

Tableau Serverの場合

Tableau Serverの場合はメタデータAPIを有効化するtsm maintenance metadata-services enableコマンドの実行が必要となります。コマンド詳細は以下をご参照ください。

実行するとTableau Serverのサービス再起動に伴う機能の一時停止についての注意事項が表示されます。yで実行すると有効化が開始します。

C:\Users\Administrator>tsm maintenance metadata-services enable
このオプションを有効化する場合、Tableau Server で使用される一部のサービスを再起動する必要があります。これにより、Tableau Server の一部の機能が一時的に使用できなくなります。続行しますか?
(y/n): y
ジョブ ID '1'、タイムアウトは 10 分です。
9% - メタデータ API ストアの作成に必要なサービスが実行されているかどうかを確認しています。
18% - メタデータ API ストア関連サービスを停止しています。。
27% - メンテナンス アプリを有効化しています。
36% - メンテナンス アプリの起動を待機しています。                  アプリの起動を待機しています。]
45% - データベース サービスを無効化しています。。
54% - データベース サービスの無効化を待機しています。                ービスの無効化を待機しています。]
63% - メタデータ API ストアを再作成しています。
72% - メタデータ API ストア関連の設定を行っています。
81% - メタデータ API ストア関連サービスを開始しています。。
メタデータ API ストアは正常に作成されました。

管理者アカウントでTableau Serverにログインし、[設定]→[全般]から「Tableau Catalogをオンにする」にチェックを入れると有効化されます。デフォルトではチェックが入っている状態です。

実際に使ってみた

無事に有効化できたらバンバン使ってみましょう。前述したTableau Catalogで確認可能なメタデータを中心に触ってみます。

リレーションシップ

ワークブックやフローなどのアイテムを選択すると、「系列」というタブが増えています。ここからアイテムに紐づいたリレーションシップを確認できます。具体的には、ワークブックに使用しているデータが何を参照しているのか、どんなフローから生成されているのか確認できるようになります。

外部アセットからも系列を確認した場合、特定のカラムを選択すると使用しているアイテムが一目でわかります。

スキーマ情報

メニューから外部アセットを選択すると、Tableauの外部由来のデータソースを一覧で見れます。データソースの場所や所有者情報、テーブルやカラムの名称、データ型を参照できます。

ユーザーが追加した情報

データソースの情報に対してユーザー自身が説明などの情報を付与することもできます。

タグ

データソースにタグをつけることで、複数のデータソースを横串でフィルタできます。

説明を編集

データソースの説明を付与できます。テーブルやカラムレベルでも説明を付与できるので、例えば「削除フラグ:1(削除)」といった文言を置いておくと便利かもしれません。

連絡先の変更

データソースに対して何かを問い合わせたいときの宛先を設定できます。

証明書の編集

認証することでデータソースの信頼性を高めることができます。認証されたアイテムにはチェックマークが入ります。

品質に関する警告

認証とは逆に、ユーザーの使用に関して注意喚起をしたいようなケースでは警告を表示させることも可能です。

まとめ

データカタログ機能・Tableau Catalogのご紹介でした。フローやデータソースをパブリッシュすることでTableau Catalogの機能をフルに活用し、他のユーザーも「こんなデータソースがあるのか、この分析に使ってみようかな」という気付きを得られそうですね。

参考情報