クラウドストレージへのファイルアップロード&ETLツール『Data Uploader』の出力にAmazon S3を指定する #データ統合基盤 #CSアナリティクス

2020.12.11

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

当エントリは『クラスメソッド CSアナリティクス Advent Calendar 2020』11日目のエントリです。

当エントリでは、クラスメソッドが展開しているデータ統合基盤サービス『CSアナリティクス』(以降"CSA")のプロダクト群の1つ、『Data Uploader』の出力対象にAmazon S3を指定する方法について紹介します。

目次

 

AWS CLI設定&Amazon S3接続設定の準備

CSA Data UploaderでAmazon S3接続をアップロード先として使うためには、「AWS CLI設定」と「CSA Data UploaderのAmazon S3接続設定」を予め行っておく必要があります。

手順としては先日投稿した「入力にAmazon S3接続を指定」するものと同じです。下記エントリの内容を参考にして準備を整えておいてください。

 

CSA Data Uploader入力:Amazon S3環境の作成

ジョブ作成画面にてジョブを作成後、入力(・変換)処理を定義。その上で出力定義の新規作成を行います。編集アイコンを押下し、

ファイルアップロードに関する設定項目を入力。項目毎の内容は以下の通りです。

ファイル種別:
アップロードするファイルを「どのファイル形式」で作成するかを選択出来ます。現時点で選択可能なものは「CSV/TSV」「JSONL」です。
区切り文字:
ファイル種別で「CSV/TSV」を選択した場合、ファイルの区切り文字をどの形式とするかを選択出来ます。
Amazon S3接続名:
Amazon S3にアップロードする際の接続情報を、予め作成・準備しておいた接続の中から選択します。
バケット名:
選択した「Amazon S3接続名」でアクセス可能なAmazon S3バケットを入力します。[バケット確認]ボタン押下で、指定S3バケットへの接続確認も行えます。
パス:
「バケット名」配下にフォルダが存在する場合、対象とさせたいパスの情報を記載します。指定内容は既存パス、またアップロード時点では存在していないパスのいずれも指定可能です。パス名にはCSA Data Uploaderで提供している「変数」を使うことも出来ます。(下記例では {{yesterday_slash}}という変数(実行日の前日日付をスラッシュ区切り)を指定しています。
ファイル名:
アップロード対象のファイル名をどうするかを指定します。「入力時のファイル名を使用する」「任意のファイル名を入力」が選択出来ます。

「入力パスイメージ」には設定した内容をS3ファイルのフルパスで確認する事が出来ます。意図した設定に出来たこと、[読み込みテスト]が通ることを確認し、[保存]を押下。

出力処理指定を作成する事が出来ました。

 

まとめ

という訳で、『クラスメソッド CSアナリティクス Advent Calendar 2020』11本目のエントリ、『Data Uploader』の出力処理にAmazon S3を指定する方法の紹介でした。CSA Data Uploaderは1ヶ月間のトライアル利用が可能となっています。興味をお持ち頂いた方は是非無料版ダウンロードページからインストーラを入手頂き、お試し頂けますと幸いです。

では、明日(12日目)のエントリもお楽しみに!