Google Data Catalogのチュートリアル(BigQueryデータセットへのタグ付け)を試してみた

2020.12.07

このエントリは『クラスメソッド BigQuery Advent Calendar 2020』7本目のエントリです。12/25のアドベントカレンダー終了まで、弊社クラスメソッド データアナリティクス事業本部のメンバーで Google BigQuery に関する記事を紡いでいこうと思います。

当エントリでは『Google Data Catalog』のチュートリアルとして公開されている、BigQueryのデータセットを対象とした手順について実際にやってみた手順を紹介します。

目次

 

Google Data Catalogとは

Google Data Catalogは、GCPが提供するフルマネージドでスケーラビリティの高いデータ検出およびメタデータ管理サービスです。

その他概要については下記情報をご参照ください。

 

チュートリアル実践

実践するチュートリアルは下記となります。Google Data Catalogの機能を使って予め用意したGoogle BigQueryのデータセット要素に対してタグ付けなどを行っていく、というものです。

 

Google Data Catalog APIの有効化

GCPメニューより「Data Catalog」を選択。

Google Data Catalogを利用するには、関連するAPIの設定を有効化する必要があります。メニュー遷移後、必要に応じて有効化設定を行ってください。[有効にする]を押下。

対象プロジェクトを選択して[続行]を押下。

有効化設定が完了しました。

設定有効化後、改めてメニューに遷移。現時点で探索可能な要素が表示されるようになりました。

 

対象データセットの準備

Google Data Catalogの管理対象となるGoogle BigQueryのデータセットを用意します。チュートリアルでは、GCPで提供されているパブリックデータセットを使う流れになっていますのでこのエントリでもそれに倣っていきます。

GCP管理メニューより[BigQuery]を選択。

対象プロジェクトにて[データセットを作成]を選択。

任意の名称でデータセットを作成します。

「BigQueryの一般公開データセット」というページにアクセス、「Cloud Marketplaceの[データセット]に移動」を選択。

bigquery public data new york taxiで検索を行い、『NYC TLC Trips』を選択。

[データセットを表示]を選択。

bigquery-public-datanew_york_taxi_tripstlc_yellow_trips_2017を選択、[テーブルコピー]を押下。

コピー対象先のデータセットに先程作成したデータセット名を、テーブル名にtripsを入力し[コピー]押下で複製を実行。

テーブルが対象データセット配下に複製されました。

 

タグ テンプレートの作成

Google Data Catalogのタグ付け操作を行います。Data Catalog管理画面TOPにて[作成]→[タグテンプレートを作成]を選択。

テンプレート作成画面に遷移しました。

テンプレート表示名に任意の名称を入力。ロケーションはここではデフォルト設定としました。

[フィールドを追加]を選択し、チュートリアルで案内されている項目を計4つ登録します。出来たら[作成]を押下。

なお、列挙型の値に関しては以下のような形で登録を行いました。

タグテンプレートの登録が完了しました。

 

タグをテーブルに添付

Google Data Catalogのタグ付け作業を実践してみます。検索画面でdemo_datasetと入力し、検索実行。検索結果で表示されたデータセット:tripsを選択します。

Google Data Catalogによるテーブル詳細画面が表示されました。画面上部メニューより[タグを付ける]を選択。

タグ付け対象選択で対象テーブル[trips]を選択。

タグテンプレートに前述作成のものを選択、及び指定値の入力を行い[保存]を押下。

テーブル情報にタグ情報が追加されました。

 

まとめ

という訳で『クラスメソッド BigQuery Advent Calendar 2020』7本目のエントリ、Google BigQueryを対象データソースとしたGoogle Data Catalogのチュートリアルを実践してみた内容の紹介でした。

明日8本目のエントリはkobayashi.mがお送りする予定です。お楽しみに!