LookML定義を活用したデータカタログ機能『Lookerデータディクショナリ』でデータガバナンスを強化! #looker

2020.07.30

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

先日購入した書籍『AWSで始めるデータレイク』を用いて、現在社内(部内)で読書会を行っています。読書会自体は非常に盛り上がっており、ディスカッションするトピックが多くて想定した以上に全然ページが進まない、という嬉しい(?)状況になっています。

そんな読書会で最近話題に挙がったのが『データカタログ』に関するトピック。AWS(サービスとしてはAWS Glue)のみならず、その他様々なサービスやツールでも『データカタログ』に関する機能は提供されています。『実際に俺達が欲しいデータカタログは一体どういうものなのだろう...』というディスカッションも為されたりと興味深いところではある(結論はまだ出てない)のですが、Lookerにもこの『データカタログ』の機能を利用する事が可能となっています。それが『Looker データディクショナリ(Data Dicrionary)』という機能です。(Looker v7.8で登場した新機能となります。)

当エントリではこの機能について、利用するための設定手順と実際に使ってみた内容について説明したいと思います。

目次

 

Lookerデータディクショナリとは

Lookerのデータディクショナリ(Data Dictionary)機能を使うと、Looker上で分析に必要なフィールド情報、メトリクスを探して見つける事が出来るようになります。

専用の集中型インタフェースを介して、Lookerにおける全てのフィールドや説明などを検索する事が出来ます。その他機能としては以下のようなものが提供されています。

  • 外部レポートを使用するために必要な参照リソースを作成
  • ビジネス ユーザーがすべてのメトリクスの説明を検索して、分析に適したディメンジョンやメジャーを特定するための場所を提供
  • 外部の利害関係者が、自社のビジネスに固有のメトリクスを簡単に識別し・発見出来るようにする
  • LookML モデルを監査して、一貫した命名規則が守られているかどうか、冗長なフィールドがあるかどうか、フィールドが記述で注釈されているかどうかを評価

利用に際しては必要な設定、及びユーザーがデータ辞書を見るための適切な権限を持っていることを確認する必要があります。

 

設定の有効化

データディクショナリ拡張機能はLooker Marketplaceで導入が可能です。これを含め以下の機能・設定を有効にすることで利用出来るようになります。

  • Extension Framework
  • Local Project Import
  • Marketplace

順を追って見ていきましょう。まずは『Extension Framework』と『Local Project Import』について、これは管理者メニューの[Labs]にて、対象の機能を有効化するだけでOKです。

データディクショナリ本体はMarketplace経由でインストールします。[Applications]から該当要素を選択し、

[Install]を押下。

[Accept]を押下。

ここも[Accept]を押下。

対象接続名(Connection Name)を指定して[Install]押下で導入完了です。(※ちなみにここで指定した接続以外でも中身は見ることは出来ました。権限の問題かな?)

 

データディクショナリ機能:実践

ここからは実際にデータディクショナリ機能がどんなものなのかを見ていきたいと思います。機能への画面遷移については、[Browse]から[Looker Data Dictionary]を選択するか、

[Application & Tools]を選択した後、

[Data Dictionary]を選択することで行なえます。

データディクショナリ機能はこの様な形で内容が表示されます。画面左側のメニューにてモデル(Model)の選択→エクスプローラ(Explore)の指定を行うことで、対象のエクスプローラにおけるカラム要素の一覧を表示する事ができます。右上の[Explore]をクリックすると、対象のExplore画面に遷移します。

項目要素については様々な絞り込み検索が出来るようになっています。項目名での絞り込みや、

ディメンション(切り口)・メジャー(数値項目)の選択、

データの型による絞り込みなどなど。

任意の項目における表示要素は列単位で表示・非表示の制御が可能になっています。

項目を選択すると、以下の様な形で別ウインドウが起動し、詳細を確認していくことが出来ます。

項目で表示する内容は、LookMLで定義されている情報を表示する形となっています。ここまで表示した内容は「Description」と「Tags」の内容が空でしたが、LookMLの指定で対象の項目を指定すると、

このように値を反映させることが出来ます。より便利に有用に機能を活用するためにはこの辺りの項目は一通り入力しておいた方が良さそうですね。

項目によっては、値の分散状況等を確認することも出来ます。

[Distribution]では、データ型がCountでフィールドラベルに"Count"の文字を含むメジャーの場合であればカウント値の分布を示す列グラフのプレビューを確認出来ます。条件に合致する項目であれば[Calculate]を押下する事が出来、結果が表示されます。またこのセクションでは、合わせて数値ディメンジョン・シリーズの最小値、最大値、および平均値も表示されます。

[Values]では、[Distribution]同様の条件を満たす項目であればカウント値のプレビューを確認出来ます。条件に合致する項目であれば[Calculate]を押下する事が出来、結果が表示されます。

 

まとめ

という訳で、Looker 7の新機能『データディクショナリ』に関する内容の紹介でした。

ご覧頂いた様に、利用し始める際の設定や手順は非常に簡単で、すぐに使い始められます。データカタログの情報整備は一朝一夕には出来ないものではありますが、まず現状把握・可視化を行うことがデータカタログの充実、ひいてはデータガバナンス強化への第一歩と繋がります。是非お手元のデータを使ってお試しください。