クラウドストレージへのファイルアップロード&ETLツール『Data Uploader』の出力にAmazon S3を指定する #データ統合基盤 #CSアナリティクス
当エントリは『クラスメソッド CSアナリティクス Advent Calendar 2020』11日目のエントリです。
- クラスメソッド CSアナリティクス Advent Calendar 2020 - Qiita
- クラスメソッド CSアナリティクス Advent Calendar 2020 | 特集カテゴリー | Developers.IO
- ビッグデータ分析支援のカスタマーストーリーアナリティクス|クラスメソッド|クラスメソッドのサービス
当エントリでは、クラスメソッドが展開しているデータ統合基盤サービス『CSアナリティクス』(以降"CSA")のプロダクト群の1つ、『Data Uploader』の出力対象にAmazon S3を指定する方法について紹介します。
目次
AWS CLI設定&Amazon S3接続設定の準備
CSA Data UploaderでAmazon S3接続をアップロード先として使うためには、「AWS CLI設定」と「CSA Data UploaderのAmazon S3接続設定」を予め行っておく必要があります。
手順としては先日投稿した「入力にAmazon S3接続を指定」するものと同じです。下記エントリの内容を参考にして準備を整えておいてください。
CSA Data Uploader入力:Amazon S3環境の作成
ジョブ作成画面にてジョブを作成後、入力(・変換)処理を定義。その上で出力定義の新規作成を行います。編集アイコンを押下し、
ファイルアップロードに関する設定項目を入力。項目毎の内容は以下の通りです。
- ファイル種別:
- アップロードするファイルを「どのファイル形式」で作成するかを選択出来ます。現時点で選択可能なものは「CSV/TSV」「JSONL」です。
- 区切り文字:
- ファイル種別で「CSV/TSV」を選択した場合、ファイルの区切り文字をどの形式とするかを選択出来ます。
- Amazon S3接続名:
- Amazon S3にアップロードする際の接続情報を、予め作成・準備しておいた接続の中から選択します。
- バケット名:
- 選択した「Amazon S3接続名」でアクセス可能なAmazon S3バケットを入力します。[バケット確認]ボタン押下で、指定S3バケットへの接続確認も行えます。
- パス:
- 「バケット名」配下にフォルダが存在する場合、対象とさせたいパスの情報を記載します。指定内容は既存パス、またアップロード時点では存在していないパスのいずれも指定可能です。パス名にはCSA Data Uploaderで提供している「変数」を使うことも出来ます。(下記例では
{{yesterday_slash}}
という変数(実行日の前日日付をスラッシュ区切り)を指定しています。 - ファイル名:
- アップロード対象のファイル名をどうするかを指定します。「入力時のファイル名を使用する」「任意のファイル名を入力」が選択出来ます。
「入力パスイメージ」には設定した内容をS3ファイルのフルパスで確認する事が出来ます。意図した設定に出来たこと、[読み込みテスト]が通ることを確認し、[保存]を押下。
出力処理指定を作成する事が出来ました。
まとめ
という訳で、『クラスメソッド CSアナリティクス Advent Calendar 2020』11本目のエントリ、『Data Uploader』の出力処理にAmazon S3を指定する方法の紹介でした。CSA Data Uploaderは1ヶ月間のトライアル利用が可能となっています。興味をお持ち頂いた方は是非無料版ダウンロードページからインストーラを入手頂き、お試し頂けますと幸いです。
では、明日(12日目)のエントリもお楽しみに!