モダンデータスタック カテゴリ紹介 #1 『ETL Tools(ETLツール)』 – Modern Data Stack Categories Overview Advent Calendar 2023

2023.12.01

当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 1日目のエントリです。

データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack/MDS)』という考え方、サービス構成が大きな注目を浴びています。データの収集、処理、保存、分析に使用されるツールとクラウドデータサービスを集めたソリューションを指す言葉です。クラスメソッドとしてもこのモダンデータスタック(Modern Data Stack/MDS)を推しており、下記の内容でお客様にサービスとして提供しています。

このモダンデータスタックという考え方、現在では構成するサービス群のジャンルが非常に多岐に渡ってきています。このカテゴリ分けも正直企業や個人によって定義が分かれていたりするのですが、『Modern Data Stack - Everything that you need to know !』というサイトではこのカテゴリ分類がシンプルかつ分かりやすく展開されています。このアドベントカレンダー企画では、このサイトで展開されているカテゴリ毎について内容を理解することで見識を広め、今後のサービス展開・サービス選択を検討する足掛かりとして行きたいと思います。

当エントリでは、Modern Data Stack(MDS)におけるカテゴリ『ETL Tools(ETLツール)』の内容について紹介します。

目次

 

当アドベントカレンダー企画について

クラスメソッドでは、データの収集、処理、保存、分析に使用されるツールとクラウドデータサービスを集めたソリューション、いわゆる『モダンデータスタック』(Modern Data Stack、略してMDS)に関する各種サービスを取り扱っています。

DevelopersIOでも下記の特集カテゴリで関連するブログエントリを展開しています。

クラスメソッドで扱っているMDS関連サービスは上記サービスページにその記載とラインナップを紹介していますが、この定義の部分については企業やサービス等に於いて独自で定めたものが紹介・展開されているのが現状です。(ざっと調べてみるだけでもこんな感じで記事が出てきます)

モダンデータスタックの構築と運用に必要な情報を様々な切り口で紹介、解説されているサイト『Modern Data Stack - Everything that you need to know !』では、数多あるモダンデータスタックに関するサービス群を『カテゴリ』毎に紹介しています。その数30カテゴリ。ジャンルも実に多彩なラインナップとなっています。(※2023年11月末現在)

クラスメソッドとして提案・オススメするMDSサービス群については上記サイトで紹介するもの、というスタンスは変わりませんが、世の中的に(全世界的に)最新のモダンデータスタック界隈ではどういう括りでカテゴリや分野が展開されているのか、またそのカテゴリや分野に於いて直近ではどういったサービスが盛り上がっているのかという情報をウォッチしていこう、見聞を広めていこうという風に思い立ったのが当企画のきっかけでした。なのでスタンス的には比較的『広く浅く』ではあります。

 

モダンデータスタック(Modern Data Stack/MDS)における『ETLツール』とは

ETLはE(Extract)、T(Transform)、L(Load)からなる略語で、様々な場所からのデータを1つの場所に統合するためのプロセスとして用いられます。ETLのプロセスは多数のマーケティング・アプリケーション、セールス・ツール、ビジネス・インテリジェンス・ソフトウェアによって構成・連携されることが多いです。ETLそれぞれの詳細な意味、実施することは以下の通り。

  • Extract(抽出): 取得元データソースからデータを抽出すること。
  • Transform(変換): 抽出したデータを後続の処理のために正規化、加工、変換すること。
  • Load(ロード): データを任意のデータソースに移動させる(取り込む)こと。

また、ETLと類する言葉として語られるものとしてELTというものがあります。これはE(Extract)、L(Load)、T(Transform)からなる略語で、LとTの順番が入れ替わっています。データを変換してからDBやDWHなどに取り込む(ETL)か、データをDBやDWHなどに取り込んでから取り込んだ環境内でSQLによって変換を行う(ELT)か、という感じですね。ユーザーが直面している環境やデータの在り方等でETL/ELTどちらの形でデータを扱うかは変わってきます。

ETLとELTの違いについては下記情報をご参照ください。

ETL/ELTソリューションは主に以下のようなユースケースで活用されます。

  • ビジネスインサイト: 全ての(マーケティング)データを一箇所に集め、一元化されたデータに対して分析を行うため。
  • データ移行: 何らかの目的を以て行われる、任意のデータソースから別の任意のデータソースへのデータ蓄積場所の変更を行うため。
  • 機械学習: 機械学習におけるモデルの学習用に必要な(大量の)データを用意するため。

ETL/ELTの歴史は2000年以前から現在まで脈々と続いており、2015年前後からのクラウドコンピューティングやクラウドデータウェアハウスの台頭によりその在り方を大きく変えてきました。近年ではdbtがオープンソースのプロジェクトして登場、データ変換の標準として存在感を高めています。データアナリストがデータ変換を行えるようになったことで"アナリティクス・エンジニア"というロールも脚光を浴びるようになってきました。

MDSにおける主なETLツール系サービス

ここではモダンデータスタックにおける『ETLツール』のカテゴリで主だったサービスについて幾つか言及していきたいと思います。(ここでの評価はユーザーによるサイト内でのLIKEの数が多いものを中心に見ていきます)

 

Airbyte

Airbyteはオープンソースのデータ統合エンジンで、ウェアハウス内のデータの統合を支援します。スケジュール更新、手動更新、リアルタイム監視、デバッグ自律性、データ制御などが含まれます。また、データパイプラインの自動化、オーケストレーション&スケジューリング、抽出、輸送、ロード、モニタリング&アラートなども提供しています。

英語関連の情報は約135000件、日本語関連の記事は約900件ありました。(※いずれもGoogle検索調べ)日本語関連の情報でAirbyteに関する記事(直接検証しているもの、または部分的に言及しているもの)は投稿日時点でそれぞれZenn.dev:140件、Qiita:26件、DevelopersIO:20件ありました。

その他Airbyteに関する基本的(初歩的)な情報は以下の通り。

 

Rudderstack

RudderStackは、開発者がよりスマートな顧客データ パイプラインを構築するためのCDP(カスタマー・データ・プラットフォーム)です。CDPそのものの解説については下記サイト等をご参照ください。

RudderStackは、主要なオープンソースのCDPであり、あらゆるアプリケーション、Web サイト、SaaS プラットフォームからデータを簡単に収集、ウェアハウスやビジネスツールで有効化できるデータパイプラインを提供します。RudderStackで出来ることとしては主に以下のものが挙げられています。

  • 顧客のデータスタック全体を接続するデータパイプラインを構築
  • リアルタイムでキャプチャされたイベントデータを180以上のビジネスツールに送信し、構成可能なスケジュールに従ってウェアハウス/データレイクにロード
  • データウェアハウスの分析に基づいて顧客ツールの強化とアクティブ化をトリガーし、パイプラインをよりスマートにする
  • カスタムのソースと宛先を構築

英語関連の情報は約112000件、日本語関連の記事は約1200件ありました。(※いずれもGoogle検索調べ)日本語関連の情報でAirbyteに関する記事(直接検証しているもの、または部分的に言及しているもの)は投稿日時点でそれぞれZenn.dev、Qiita、DevelopersIOで10件未満でした。まだまだ日本では名前を知られていないサービスと言えそうです。

その他RudderStackに関する基本的(初歩的)な情報は以下の通り。

 

Fivetran

Fivetranは、自動でデータパイプラインを構築するSaaS型のクラウドサービスです。セットアップは5分で完了、メンテナンスや細かい設定は必要ありません。スキーマは事前に定義されているのでコーディングも不要です。

SalesforceやMarketo、Zendeskなど320以上のサービス・データベースのコネクターを使ってFivetranにデータを集約することができます。集約データはSnowflake、Amazon Redshift、Microsoft Azure、Google BigQuery などクラウドベースのデータウェアハウスに自動的に格納されます。(以上、下記弊社製品サイトより引用。クラスメソッドはFivetranのライセンス販売パートナーです。サービスの導入支援はおまかせください。)

DevelopersIOでは、Fivetranの記事数は約80件あります。(※投稿日現在)

その他Fivetranに関する基本的(初歩的)な情報は以下の通り。

 

まとめ

という訳で『Modern Data Stack Categories Overview Advent Calendar 2023』1日目の記事、ETLツールに関する紹介エントリでした。

初日に紹介したカテゴリは割と馴染みのあるジャンルでしたが、この分野に於いても最近は色々なサービスが出ているんだなぁ、というのを実感しました。

明日2日目は『Data Workspace/Collaboration(データワークスペース/コラボレーション)』に関する内容となります。お楽しみに!