Amazon S3オブジェクトのメタデータをAlteryx Connectにロードする

2020.06.22

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部プロダクト営業部の営業じゃないほう・新納(にいの)です。

データカタログ製品であるAlteryx Connectにメタデータをロードするには、ワークフローの形で提供されているメタデータローダーの実行が必要となります。

本エントリでは、Amazon S3上に配置されたデータのメタデータをAlteryx Connectにアップロードしてみた記録をシェアします。S3は好きですか?私は好きです。

前提条件

  • Alteryx Connect 2020.2
  • Alteryx Designer 2020.2
  • メタデータローダー 2020.2

メタデータローダーをダウンロードする

ライセンスポータルにアクセスし、「Alteryx Connect」→「Alteryx Connect(バージョン)」にある「AlteryxConnectLoaders_<バージョン>.exe」をクリックしてダウンロードします。ダウンロード完了後はexeファイルを実行してインストールを完了します。インストールが成功するとAlteryx Designerのヘルプメニュー→「サンプルワークフロー」から「Alteryx Connect Metadata Loaders」を確認できます。

JavaScript Toolをインストールする

S3 Loaderの内部にJavaScript Toolが使用されているため、あらかじめインストールが必要となります。

以下Alteryx Communityのナレッジベースにアクセスし、「Download yxi file」のリンクからyxiファイルをダウンロードします。

yxiファイルを実行するとインストール確認画面が表示されます。「インストール」ボタンより処理を実行し、完了すると「開発者」タブにJavaScript toolが表示されます。

S3 Loaderを実行する

Alteryx Designerのメニューバーより、「ヘルプ」→「サンプルワークフロー」→「S3 Uploader」からS3 Loaderを起動します。

実行ボタン左側の「分析アプリとして実行」ボタンをクリックします。

Amazon S3タブ

必要項目を埋めていきます。チェックボックスの部分に関してはチェックするとAlteryx Connect上でどのように表示されるのか後述します。

項目
AWS Endpoint S3のエンドポイント(未入力の場合は自動で補完される)
AWS Access Key S3へのアクセスが可能なAWSアクセスキー
AWS Secret Key S3へのアクセスが可能なAWSシークレットキー
AWS Buckets to load S3バケット名(複数ある場合はコンマで区切る)
Files to load メタデータをロードするファイル種類(複数ある場合はコンマで区切り、全ファイルを読み込みたい場合はブランクを入力)
Load Tags S3オブジェクトに付与されたタグをAlteryx Connect上にロードしたい場合はチェック
Load user defined metadata S3オブジェクトに付与されたユーザー定義メタデータをAlteryx Connect上にロードしたい場合はチェック
Load download link Alteryx Connect上からS3オブジェクトをダウンロード可能にする場合はチェック
Data profiling Alteryx Connect上でデータプロファイリングを確認可能にする場合はチェック(チェック時は通常より実行時間がかかる点に注意)

Alteryx Connectタブ

Alteryx Connectの接続情報を入力します。

項目
URL Alteryx ConnectのURL
ユーザー名 Administrator権限を持つユーザー名
パスワード Administrator権限を持つユーザーのパスワード

ここまで入力し、完了ボタンを押せばS3 Loaderが実行されます。

Alteryx Connect上での表示

ロードしたS3オブジェクトのメタデータをAlteryx Connect上で確認してみましょう。「Data Sources」→「Files」にアクセスするとAmazon S3というメニューが表示されます。

ロードしたS3バケット名を表示すると、S3オブジェクトが確認できます。

S3 Loaderでオプションでチェック可能だった項目を選択して実行すると、Alteryx Connect上ではどのように表示されるのか確認してみましょう。

Load Tagsをチェックした場合

S3オブジェクトにタグが付与されている場合、タグ情報もAlteryx Connectから確認可能となります。試しにuser=niinoというタグを付与してみました。

Alteryx Connect上で確認すると、Asset DetailsにTagの項目が表示されるようになりました。

Load user defined metadataをチェックした場合

S3オブジェクトに付与されたx-amz-meta始まりのユーザー定義メタデータをロードします。

Alteryx Connect上からは「Extended properties」にてx-amz-meta以降のキーと値を確認可能です。

Load download linkをチェックした場合

S3オブジェクトをAlteryx Connectからダウンロード可能になります。OPENボタンを押すと直ちにダウンロードが開始します。なお、チェックを入れずにS3 Loaderを実行した場合OPENボタンは表示されません。

Data profilingをチェックした場合

S3オブジェクトのカラム名やデータ型などのデータプロファイリングをAlteryx Connectから参照可能となります。

まとめ

データレイク用途としてよく使われるS3のメタデータローダーを使い倒すの巻でした。S3のメタデータはAlteryx Connectから「USE IN WORKFLOW」ボタンをクリックすることで、S3オブジェクトのデータを取得可能なS3 download toolが含まれたワークフローを即ダウンロード可能なところも便利です。(要アクセスキー/シークレットキー)。S3 Loaderの項目に何を埋めていいのかお悩みの方のお役に立てば幸いです。

参考資料

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。 alteryx_960x400