クラウドストレージへのファイルアップロード&ETLツール『Data Uploader』の入力にローカル環境のファイルを指定する #データ統合基盤 #CSアナリティクス

2020.12.02

当エントリは『クラスメソッド CSアナリティクス Advent Calendar 2020』2日目のエントリです。

当エントリでは、クラスメソッドが展開しているデータ統合基盤サービス『CSアナリティクス』(以降"CSA")のプロダクト群の1つ、『Data Uploader』の入力に、Data UploaderをインストールしたOS環境下のテキストファイルを指定する手順について紹介します。

目次

 

ローカルテキストファイル接続の作成(Windows環境)

入力要素として『ローカルテキストファイル接続』を作成するには、Data UploaderをインストールしたOSに必要なファイルを任意のフォルダに格納しておけばOKです。Windows環境の場合、以下のような形でファイルを準備しておきます。

Data Uploaderのジョブ一覧画面にて、[ジョブを作成]を押下、任意のジョブ名で[データアップロード]ジョブを作成します。(ファイルの変換処理が要らない場合はファイルアップロードジョブでもOKです)

ジョブ編集画面に遷移。入力要素パートにある編集アイコンをクリック。

入力種別で[ローカル接続]を選択。

すると、以下のような設定画面が起動します。それぞれ入力ファイルに対応した値を指定。

  • 説明:処理要素に関するメモ書きなどを残せます。
  • ファイル/フォルダパス:入力要素対象となるファイル、またはファイルが格納されているフォルダを指定出来ます。指定内容は設定に応じてリアルタイムで「入力パスイメージ」として確認することが出来ます。
  • 文字コード:対象ファイルの文字コードを指定。
  • 区切り文字:ファイルの区切り文字を指定。現行指定可能なものはカンマ、タブの2種類となります。なので取り込めるファイルとしても「CSV」「TSV」いずれかの形式が対象となります。
  • 圧縮種別:指定無し、gzip圧縮のいずれかを選択可能です。
  • ファイルヘッダ:ファイルヘッダの有無を内容に応じて指定可能です。

ファイルパス指定の際には、「変数」と「ワイルドカード」を合わせて利用可能です。変数はData Uploaderのビルトインで時制に関するものを、

またワイルドカードも以下のような指定内容で利用が可能となっています。

[読み込みテスト]でちゃんとアクセス出来ることを確認しつつ[保存]押下。以下のような形で入力設定が完了しました。この状態ですぐ横にある[データ表示]のリンクをクリックすることで、

以下のようにデータのサンプリング表示が可能となります。(先頭5件を表示する形となります)

 

ローカルテキストファイル接続の作成(Linux環境)

Data UploaderはOSとしてLinuxにも対応しているので同様の設定をLinuxでもサンプルで確認してみます。任意のパス(今回は先日のエントリでAmazon Linux2に導入したものがあるので、/home/ec2-user/配下に別途フォルダを用意し、そこにCSVファイルを配置してみました。

$ pwd
/home/ec2-user/csa_du_data
[ec2-user@ip-10-0-0-23 csa_du_data]$ ll
合計 12
-rw-rw-r-- 1 ec2-user ec2-user 166 11月 27 01:08 blog-data-202009.csv
-rw-rw-r-- 1 ec2-user ec2-user 166 11月 27 01:08 blog-data-202010.csv
-rw-rw-r-- 1 ec2-user ec2-user 166 11月 27 01:08 blog-data-202011.csv

パス指定のUIとして、Linux版でも以下の様に指定・利用が可能になっていますね。

 

まとめ

という訳で、『クラスメソッド CSアナリティクス Advent Calendar 2020』2本目のエントリ、『Data Uploader』の入力にローカル環境のファイルを指定する手順の紹介でした。CSA Data Uploaderは1ヶ月間のトライアル利用が可能となっています。興味をお持ち頂いた方は是非無料版ダウンロードページからインストーラを入手頂き、お試し頂けますと幸いです。

では、明日(3日目)のエントリもお楽しみに!