Amazon DataZone 初期導入から Amazon Redshift 統合の新機能まで解説する!

2024.04.09

はじめに

クラスメソッドの石川です。Amazon DataZoneは、クラウドサービス間の連携を活かし、Amazon Redshift統合の機能強化により、従来よりも簡単な操作で環境設定ができるようになりました。データガバナンス系のツールは設定が多くなりがちなので、この利便性は多くのユーザーにとって気になるところでしょう。

今回は、Amazon Redshiftのサンプルデータの作成からAmazon DataZoneの初期導入とAmazon Redshift 統合まで解説します。

すでに、Amazon Redshift 導入済みの方は、「Amazon DataZoneの準備」から、Amazon Redshift 統合の機能強化のみご覧いただきたい方は「環境プロファイルを作成」から読み進めてください。

なお、従来の手順はこちらになります。

Amazon DataZone の Amazon Redshift 統合の機能強化とは

この機能強化により、Amazon Redshiftのテーブルやビューの公開とアクセス申請がより簡単になりました。

管理者は、クラスター、データベース、AWS Secrets Manager のシークレットなどのパラメーターを指定して、DefaultDataWarehouseと呼ばれるブループリントのテンプレートの上にパラメーターセットを作成できます。このパラメーターセットを利用して環境プロファイルを作成し、Amazon DataZoneプロジェクトに対して、この環境プロファイルを使って環境を作成する権限を与えることができます。これにより、データの提供者や利用者は、環境を作成する際に自分でパラメーターを入力する必要がなくなり、選択するだけで済むようになります。

0. 検証用の環境の準備

サンプルデータの準備

検証用のデータは、Redshiftのサンプルデータベースのデータ「サンプルデータベース - Amazon Redshift 」を用います。フォルダアイコンをクリックだけで、Redshift Serverlessにsample_data_devデータベースとtickitスキーマ、テーブルが自動的に作成されデータもロードされます。

Secret ManagerのSecretを作成

クラスタに接続するためのSecretを作成します。

1. Amazon DataZoneの準備

ドメインの作成

ここでは、ドメイン名data-voyageを作成します。Quick Setupの「データ使用と発行のためにこのアカウントを設定する」にチェックを入れることを忘れないでください。ブループリントの有効化設定や必要なロールもまとめて作成します。

以下のようなドメインが作成されました。

プロジェクトの作成

上記の「データポータルURL」をクリックすると、プロジェクトの作成を求められます。ここでは、ドメイン名odysseyを作成します。

プロジェクトが作成されると、以下の画面が表示されます。

環境プロファイルを作成

画面上の「環境」を選択すると「環境で操作」が表示されます。[環境プロファイルを作成]を押します。

本来は、パラメータセットを作成して、「パラメータセットを選択」予定でしたが、パラメータセットの作成方法が見当たらず、「独自のものを入力」で作成しました。

また、手順のはじめの方で作成したSecretを指定します。指定したSecretに画面青枠で表示されているAmazonDataZoneDomainAmazonDataZoneProjectのタグとその値の追加を忘れないでください。

環境を作成

環境プロファイルが作成できたので、「プロファイルから環境を作成」で環境に進みます。下記の画面で、環境の名前と環境プロファイルを指定して、[環境を作成]を押すと作成が開始します。

数分経過すると、環境が作成されます。

環境が追加されていることが確認できます。

2. データソースの設定

先ほど作成した環境に、新しいデータソースを作成します。画面上の「データ」を選択して、左の「データソース」を選択します。右上の[データソース作成]を押すとデータソース作成画面が表示します。

ここでは一番最初に準備したサンプルデータのtickitスキーマを「スキーマ」に指定します。

デフォルトのままで進みます。

実行設定は、メタデータの収集が成功することを確認したいので「オンデマンドで実行」に変更します。後で「スケジュールに従って実行」に変更することが可能です。

3. メタデータのインポート

作成したデータソースを選択して「実行」を押します。

収集するテーブル数が少ないためか、あまり待たずに完了しました。

さいごに

新機能のRedshiftの統合強化では、管理者は、クラスタ、データベース、AWS Secrets Manager のシークレットなどのパラメーターを指定して、DefaultDataWarehouseと呼ばれるブループリントのテンプレートの上に「独自のものを入力」にてパラメータを設定しました。本来、試したかった「パラメーターセット」について現時点でマニュアル等に情報がないため検証できませんでした。

今回のアップデートに伴い、環境プロファイルや環境の作成手順や入力項目が変わりましたので、このブログは最新の手順を踏襲した内容です。2024年4月時点の最新のAmazon DataZone の初期導入から Amazon Redshift 統合の新機能まで、ぜひ実際に手を動かしながら体験してみることをおすすめします。