データレイク上にETLパイプラインを構築するSaaS「Upsolver」を触ってみた

#ETL

#モダンデータスタック

春田拓海 | Takumi

2021.12.10

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

本記事では、ストリームデータのETLプラットフォームである Upsolver を試していきます。

「GUIのETLツール…？もうお腹いっぱいだよぉ…。」という方に向けて、さらに胸焼けさせちゃいますね。テヘッ☆

Upsolverについて

Upsolverは2014年にカリフォルニア州で創業されたスタートアップです。2021年4月にシリーズBで$25Mの資金調達に成功しており、順調に事業規模を成長させています。

Upsolver Raises $25M Series B Round to Reinvent Analytics on Cloud Data Lakes | Business Wire

Upsolverでは、企業のデータレイクに存在するストリームデータのなどを対象に、ローコードでETL処理が書けるプラットフォームを提供しています。公式からは特徴として以下の7点を挙げています。

データパイプラインの複雑さを除去する
- Eliminate the Complexity of Data Pipeline Engineering
Visual IDEを使用して、高性能の宣言型データパイプラインを構築
- Build High-Performance, Declarative Data Pipelines with a Visual IDE
パイプラインのオーケストレーションとデータレイクのテーブル管理を自動化する
- Automate Pipeline Orchestration and Data Lake Table Management
複雑なデータでも大規模処理が可能
- High Performance at Scale on Complex Data
UIからストリーム、ファイル、データベースの取り込みが可能
- UI-Driven Ingestion from Streams, Files, Databases
データレイク、データウェアハウス、データベース、ストリームに継続的にデータを提供
- Continuously Serve Data to Lakes, Warehouses, Databases and Streaming Systems
クラウドコンピューティングとデータエンジニアリングのコストを50〜75％削減
- 50-75% Lower Cloud Compute and Data Engineering Costs

次節からデモの実施に入りますが、今回Redshiftをターゲットとしてしまったため、Upsolverの本領をあまり発揮できなかったかもしれません。あらかじめご了承ください。「どんな機能があるのか？」や「パイプライン構築の流れ」ぐらいであれば、ざっくり把握できるかなとは思っています。

アカウント開設とAWS連携

公式HPより、START FOR FREEをクリックします。

GoogleやMicrosoftアカウントでのサインアップも可能です。今回はGoogleアカウントで認証を進めました。

会社情報を入力してSIGN UPをクリック。

Upsolverのオンボーディング画面に到着しました。Sandbox環境があるみたいですが、最初からAWSのインテグレーションを進めていきます。

選択肢として、自身のAWSアカウントにデプロイするか、UpsolverのAWSアカウントにデプロイするか選べます。ここはなるべくマネージドにいきたいので、Multi-Tenant Deploymentを選択。リージョンも東京リージョンを指定できました。

続いて、用意されているCloudFormationのテンプレートで、自分のAWSアカウント側にS3バケットやIAM Roleを作成します。これを使ってUpsolverのAWSアカウントから、自分のAWSアカウントのリソースにアクセスさせます。LAUNCHをクリック。

記入するパラメータもほぼないので、下部にチェックマークを入れてスタックの作成をクリックします。

作成されたリソースは、AthenaやS3、KinesisにアクセスするIAM Roleと専用のS3バケットです。

Upsolverの画面に戻ると、インテグレーション完了の画面に切り替わってました。Doneを押してAWS連携は完了です。

Data Sourceの追加と機能

次に、Data Sourceの追加を行っていきます。今回対象とするのはパブリックに配置してRedshiftクラスタです。Redshiftには立ち上げ時に挿入できるサンプルデータを作成済みです。UpsolverではJDBCドライバ経由で接続していきます。

Data Source名と処理を行うコンピュートの選択、出力先のストレージを設定します。ここは全てデフォルトです。

Redshiftの接続情報を記述します。UpsolverのData Sourceはテーブルと1対1で紐づくみたいですね。TIMESTAMP COLUMNSがoptionalとはなってますが、レコード挿入時インクリメンタルに自動生成されるカラムがない場合は、TIMESTAMP COLUMNSの指定を要求されます。そのため、今回はサンプルデータのうちsalesテーブルのsaletimeを入れておきました。