クラウドストレージへのファイルアップロード&ETLツール『Data Uploader』の入力にSFTP環境のファイルを指定する #データ統合基盤 #CSアナリティクス

2020.12.03

当エントリは『クラスメソッド CSアナリティクス Advent Calendar 2020』3日目のエントリです。

当エントリでは、クラスメソッドが展開しているデータ統合基盤サービス『CSアナリティクス』(以降"CSA")のプロダクト群の1つ、『Data Uploader』の入力に、任意のFTP/SFTP環境下のテキストファイルを指定する手順について紹介します。

目次

 

SFTP環境の準備

CSA Data Uploaderでは、任意のFTP及びSFTP環境に存在するテキストファイル(CSV,TSV)を入力のデータソースに指定することが出来ます。今回は検証用にSFTP環境を用意し、そこにあるファイルを指定する形を採りたいと思います。

環境は、下記のブログエントリを参考にAmazon Linux 2インスタンスにSFTPアクセス出来る場所を用意しました。

作成したインスタンスにSFTPアクセス出来ること(インスタンスへのアクセス設定は適切な制御を合わせて行ってください)を確認。接続用いたファイルや設定は後述設定で用いますので予め手元に控えておいてください。

% ssh -i sftp-server.pem sftpuser@xxx.xx.xx.xxx
Enter passphrase for key 'sftp-server.pem': 
Last login: Sat Nov 28 00:17:52 2020

       __|  __|_  )
       _|  (     /   Amazon Linux 2 AMI
      ___|\___|___|

https://aws.amazon.com/amazon-linux-2/
$ whoami
sftpuser

また、入力データソースとするファイルを任意のフォルダに配置するところまでを準備しておきます。

$ pwd
/home/sftpuser/sftpdata
$ ll
合計 308
-rw-rw-r-- 1 sftpuser sftpuser 116928 12月 x xx:xx cm-all-blogposts_2020-07.tsv
-rw-rw-r-- 1 sftpuser sftpuser  88948 12月 x xx:xx cm-all-blogposts_2020-08.tsv
-rw-rw-r-- 1 sftpuser sftpuser 105923 12月 x xx:xx cm-all-blogposts_2020-09.tsv
$

 

SFTP接続設定の追加

CSA Data UploaderでSFTP接続を利用する際には、予め「SFTP接続設定」を作成・設定しておく必要があります。メニューの[設定]から[接続設定]→[SFTP]を選択、

[SFTP設定]一覧画面に遷移します。[追加]を押下。

以下入力フォームが表示されます。前述手順で用意したSFTP環境の接続設定を入力、[接続テスト]押下で繋がることを確認し、[保存]を押下。

SFTP接続設定が追加されました。後続の手順でこの接続情報を指定します。

 

CSA Data Uploader入力:SFTP環境の作成

ジョブ一覧で[ジョブを作成]を押下、データアップロードジョブ(変換処理の必要がない場合はファイルアップロードジョブでも可)を作成。

入力要素の編集リンクをクリック、入力種別に[SFTP接続]を選択。

新たに表示される入力フォームに[SFTP接続名]の指定が出来るようになるので、前述手順で作成した接続を選択。

その他、必要な項目についてはテキストファイルのものと同じです。一通り設定が完了したら[読み込みテスト]押下でファイルにアクセス出来ることを確認し、[保存]を押下。

入力:SFTP接続が設定完了となりました。[データ表示]押下でデータのプレビュー表示も出来ていることを確認出来ます。

 

まとめ

という訳で、『クラスメソッド CSアナリティクス Advent Calendar 2020』3本目のエントリ、『Data Uploader』の入力に任意のSFTP環境のファイルを指定する手順の紹介でした。CSA Data Uploaderは1ヶ月間のトライアル利用が可能となっています。興味をお持ち頂いた方は是非無料版ダウンロードページからインストーラを入手頂き、お試し頂けますと幸いです。

では、明日(4日目)のエントリもお楽しみに!