『Data Uploader』ではツール1つで複数クラウドストレージ・アカウントへのファイルアップロードが可能です #データ統合基盤 #CSアナリティクス

2020.12.12

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

当エントリは『クラスメソッド CSアナリティクス Advent Calendar 2020』12日目のエントリです。

当エントリでは、クラスメソッドが展開しているデータ統合基盤サービス『CSアナリティクス』(以降"CSA")のプロダクト群の1つ、『Data Uploader』で"複数クラウドストレージ環境への出し分け"が出来るという点について紹介します。

目次

 

『Data Uploader』ではツール1つで複数クラウドストレージ・アカウントへのファイルアップロードが可能です

今回企画したアドベントカレンダーシリーズでは、機能紹介の他にも「CSAプロダクトにはこんな使い方も出来ますよ」「こんなポイントがありますよ」というところについてもご紹介していければと思っています。本日のエントリもそんな切り口でお届けするものとなっています。


昨今クラウド上で稼働するデータウェアハウスも数多く台頭してきており、その流れに乗る形で今回のアドベントカレンダーで扱っている『カスタマーストーリーアナリティクス(CSアナリティクス)』も今年の夏時点で複数データウェアハウス(Amazon Redshift、Google BigQuery、Snowflake)に対応する形となりました。

データウェアハウスにデータを取り込む際、まず行うのは「データウェアハウスに取り込むために必要なエリアにデータを用意しておく(アップロードしておく)」作業です。代表的な例でいうと、Amazon RedshiftであれはAmazon S3に、Google BigQueryであればGoogle Cloud Storageに...といったところです。

CSアナリティクスのプロダクトの1つである「CSA Data Uploader」は、現在この2つのストレージにファイルをアップロードする機能を兼ね備えています。

データウェアハウスを扱う上でファイルアップロードを異なる設定で行いたい、または複数データウェアハウスを活用している場合(これは同種製品の場合も、異なる製品の場合も双方ありえると思います)はそれら異なる環境にそれぞれアップロードを行いたい、というケースも出てくるかと思います。下記イメージ図は極端な例として図示してみましたが、用途や内容に応じて出し分けたい...ということも結構あったりするのではないでしょうか。

CSA Data Uploaderでは、この処理をとてもシンプルな手順で実現する事が出来ます。

CSA Data Uploaderでは入力(所定のデータソースからデータを抽出)及び出力(所定のデータソースにデータをアップロード)処理を構築する際、予めそのデータソースにアクセスするための「接続」を作成し、その作成した「接続」を使って処理を構築します。この「接続」を、用途に合わせた形で作り分けておくことで、やりたいことを実現出来る準備が整います。

  • Amazon S3接続の場合:対象の条件に合う形でAWS CLIのプロファイル設定を用意、そのAWS CLIプロファイルを使ってS3接続を作成しておく
  • Google Cloud Storage(GCS)接続の場合:対象の条件に合う形でサービスアカウントキーを作成、そのサービスアカウントキーを使ってGCS接続を作成しておく


(※Amazon S3接続を複数用意した例)

「クラウドストレージへのアップロード」を行うジョブはそれぞれ用意する形となりますが、この設定・構成を用いることで「異なるクラウドストレージ、及び異なる設定毎への環境へのデータのアップロード」を実現する事が可能となります。

CSA Data Uploaderでは、今後もより便利で使い勝手の良いツールを目指すべく、入力及び出力のデータソース接続設定・種類を増やしていく予定です。

 

まとめ

という訳で、『クラスメソッド CSアナリティクス Advent Calendar 2020』12本目のエントリ、CSA Data Uploaderの複数DWH・接続先対応に関する紹介でした。CSA Data Uploaderは1ヶ月間のトライアル利用が可能となっています。興味をお持ち頂いた方は是非無料版ダウンロードページからインストーラを入手頂き、お試し頂けますと幸いです。

では、明日(13日目)のエントリもお楽しみに!