![[2025年3月5日号]個人的に気になったModern Data Stack情報まとめ](https://images.ctfassets.net/ct0aopd36mqt/wp-thumbnail-4c47f61cc8c1b97c00c0efcc68eab01b/ebc4f0c0223a249eae2f9de257dedbcd/eyecatch_moderndatastack_1200_630.jpg)
[2025年3月5日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Open Source Data Engineering Landscape 2025
OSSのデータエンジニアリングツールについて、各カテゴリごとに現在の状況と今後の展望をまとめた記事が出ていました。
以下、この記事の内容について生成AIでの要約結果を記しておきます。
-
Introduction
- 2024年、オープンソースデータエンジニアリングは急速に進化し、50以上の新ツールが追加される一方、10ほどの非アクティブプロジェクトが削除された。
-
Research Methodology
- GitHubリポジトリイベントを追跡する独自のデータプラットフォームを構築し、コード活動、スター数、ユーザーエンゲージメントなどのメトリクスを分析している。
-
Tool Selection Criteria
- アクティブなプロジェクトのみを選定し、非アクティブや十分な成熟度を持たない新しいプロジェクトは除外している。
-
State of Open Source in 2025
- 一部のプロジェクトがクローズドライセンスに移行する一方、大手企業からの重要な貢献(SnowflakeのPolaris、DatabricksのUnity Catalogなど)も見られた。
-
Storage Systems
- DuckDBが1.0リリースで成功を収め、PostgreSQLエコシステムでOLAP拡張機能が急増。ゼロディスクアーキテクチャが変革的トレンドとして浮上している。
-
Data Lake Platform
- Apache Icebergがオープンテーブルフォーマットの主要プロジェクトとして確立され、PythonとRustでのネイティブライブラリ開発が新たなトレンドとなっている。
-
Data Processing & Integration
- 単一ノード処理の台頭が従来の分散ファーストアプローチに挑戦し、Apache Flinkがストリーミングエンジンとしての地位を強化。Polarsがデータエンジニアリングワークロード向けの主要Python処理フレームワークに。
-
Workflow Orchestration & DataOps
- Apache Airflowが依然として最も採用されているが、Dagster、Prefect、Kestraなどの競合が台頭している。
-
Data Integration
- Airbyteがリーダーシップを維持し、ストリーミングランドスケープではストレージとコンピュートの分離が重要な進化となっている。
-
Data Infrastructure
- Kubernetesが10周年を迎え、クラウド環境でのリソーススケジューリングとバーチャライゼーションエンジンとしての地位を維持している。
-
ML/AI Platform
- ベクトルデータベースが2023年からの勢いを維持し、LLMOps(GenOps)が新たなカテゴリとして登場している。
-
Metadata Management
- DataHubがオープンソース空間をリードし、2024年は「カタログ戦争」の始まりとなった年で、複数の新しいオープンカタログソリューションが登場している。
-
Analytics & Visualisation
- Apache SupersetとMetabaseがオープンソースBIソリューションをリードし、BI-as-Codeが新たなカテゴリとして台頭。コンポーザブルBIスタックが新たなトレンドとなっている。
Data Extract/Load
Airbyte
Airbyteの年次カンファレンス「move(data) 2025」が3月20日に開催予定
Airbyteの年次カンファレンスである「move(data) 2025」が3月20日に開催予定です。
無料でオンラインから参加可能となっております。
最新バージョンであるv1.5.0がリリース
Airbyteの最新バージョンであるv1.5.0がリリースされました。主なアップデート内容は下記となります。
- Connector BuilderにおいてOAuth 2.0を用いた認証が利用できるように
- Connectionのタグによる分類
- Self-Managed Enterprise版のUIやOpenTelemetry関係のアップデート
Omnata
Sync設定時にサーバーレスタスクを利用できるように
Omnataの最新バージョンであるv3.42で、Sync設定時にウェアハウスの指定がされていない場合は、サーバーレスタスクに関する権限をチェックした上で、サーバーレスタスクでSync設定がされるようになりました。
Data Warehouse/Data Lakehouse
Snowflake
Snowflake Summit 2025のOpening KeynoteでSam Altman氏が登壇予定
Snowflake Summit 2025のOpening KeynoteでSam Altman氏が登壇予定であることが発表されました。Snowflake社のCEOであるSridhar Ramaswamy氏と対談するセッションが予定されているとのことです。
Dynamic Tablesの最新機能について
Mediumにおいて、Dynamic Tablesのこの半年ほどで追加された新機能についてまとめられた記事が出ていました。
- 増分更新時のエンジンが更新された
TARGET_LAG = 'DOWNSTREAM'
を設定した際に、連鎖するDynamic Tablesの更新がよりスムーズにINFORMATION_SCHEMA.DYNAMIC_TABLE_REFRESH_HISTORY
ビューに、COMPUTE_COST
列やREFRESH_TRIGGER
列が追加- CTEやサブクエリに対応
- テーブルの再作成不要で、ALTER文で使用するウェアハウスを変更できるように
Databricks
DatabricksでDelta Lake UniFormを有効化したテーブルをSnowflakeから参照させる例
DatabricksでDelta Lake UniFormを有効化したDeltaテーブルをSnowflakeから参照させる方法について、Qiitaにて記事が出ていました。
Databricksでは基本的にDelta Lakeの形式でテーブルが作られますが、Delta Lake UniFormを用いるとDelta LakeだけでなくApache IcebergやApache Hudiにも対応して、単一のデータファイルから各フォーマットのメタデータを自動的に生成できるのが素晴らしいですね!
Data Transform
dbt
dbt Cloudのジョブをyamlベースで定義できるOSS「dbt-jobs-as-code」
私も@civitaspoさんの投稿で知ったのですが、dbt Cloudのジョブをyamlベースで定義できる「dbt-jobs-as-code」というOSSが公開されています。v1.0.0のリリースは2024年12月で、現在も定期的にアップデートが行われています。
Business Intelligence
Looker
Gemini関連の機能がプレビュー
LookerでGemini関連の機能がプレビューとなりました。
1つ目としてLooker(Original)にて、Geminiを用いたCustom VisualizationとLookMLの生成機能がプレビューとなりました。「Gemini in Looker」という名称でリリースされています。
2つ目としてLooker(Original)とLooker(Google Cloud Core)どちらでも、Studio in Lookerと上述のGemini in Lookerを有効化していると、Conversational Analyticsが利用できるという機能もプレビューとなっております。
Omni
CSVアップロード、AI summariesなどの新機能をリリース
Omniが新機能として、CSVアップロード、AI summariesなどの新機能をリリースしました。(2025年2月20日のリリースです。)
Omniのdbt IDEを用いてdbtのModelの開発の紹介記事・動画
Omni社のブログにおいて、Omniのdbt IDEを用いてdbtのModelの開発の紹介記事とそのデモ動画が公開されていました。
Omniの中で「dbtのModelを変更して、そのまま開発環境のスキーマを元にBIで参照」というプロセスが実現できるため、dbt+BIを交互に行き来して開発しているケースでは役に立つのではないでしょうか。
Lightdash
GUI上で定義したCustom metricsをコード化してプルリクエストを発行できる機能をリリース
Lightdashが新機能として、グラフ作成の画面で定義したCustom metricsをコード化してプルリクエストを発行できる機能をリリースしました。これは個人的にはかなり嬉しい機能です!
Data Orchestration
全般
State of Open Source Workflow Orchestration Systems 2025
約1ヶ月ほど前の記事にはなるのですが、AirflowやDagsterなど、OSSのオーケストレーションツールの現状をまとめた記事が出ていました。
GitHubのスター・プルリクエスト・コミット・イシューの数など定量的な指標を元に各ツールの現状がわかり参考になります。