[2025年3月5日号]個人的に気になったModern Data Stack情報まとめ

[2025年3月5日号]個人的に気になったModern Data Stack情報まとめ

Clock Icon2025.03.05

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Open Source Data Engineering Landscape 2025

OSSのデータエンジニアリングツールについて、各カテゴリごとに現在の状況と今後の展望をまとめた記事が出ていました。

https://www.pracdata.io/p/open-source-data-engineering-landscape-2025

以下、この記事の内容について生成AIでの要約結果を記しておきます。

  • Introduction

    • 2024年、オープンソースデータエンジニアリングは急速に進化し、50以上の新ツールが追加される一方、10ほどの非アクティブプロジェクトが削除された。
  • Research Methodology

    • GitHubリポジトリイベントを追跡する独自のデータプラットフォームを構築し、コード活動、スター数、ユーザーエンゲージメントなどのメトリクスを分析している。
  • Tool Selection Criteria

    • アクティブなプロジェクトのみを選定し、非アクティブや十分な成熟度を持たない新しいプロジェクトは除外している。
  • State of Open Source in 2025

    • 一部のプロジェクトがクローズドライセンスに移行する一方、大手企業からの重要な貢献(SnowflakeのPolaris、DatabricksのUnity Catalogなど)も見られた。
  • Storage Systems

    • DuckDBが1.0リリースで成功を収め、PostgreSQLエコシステムでOLAP拡張機能が急増。ゼロディスクアーキテクチャが変革的トレンドとして浮上している。
  • Data Lake Platform

    • Apache Icebergがオープンテーブルフォーマットの主要プロジェクトとして確立され、PythonとRustでのネイティブライブラリ開発が新たなトレンドとなっている。
  • Data Processing & Integration

    • 単一ノード処理の台頭が従来の分散ファーストアプローチに挑戦し、Apache Flinkがストリーミングエンジンとしての地位を強化。Polarsがデータエンジニアリングワークロード向けの主要Python処理フレームワークに。
  • Workflow Orchestration & DataOps

    • Apache Airflowが依然として最も採用されているが、Dagster、Prefect、Kestraなどの競合が台頭している。
  • Data Integration

    • Airbyteがリーダーシップを維持し、ストリーミングランドスケープではストレージとコンピュートの分離が重要な進化となっている。
  • Data Infrastructure

    • Kubernetesが10周年を迎え、クラウド環境でのリソーススケジューリングとバーチャライゼーションエンジンとしての地位を維持している。
  • ML/AI Platform

    • ベクトルデータベースが2023年からの勢いを維持し、LLMOps(GenOps)が新たなカテゴリとして登場している。
  • Metadata Management

    • DataHubがオープンソース空間をリードし、2024年は「カタログ戦争」の始まりとなった年で、複数の新しいオープンカタログソリューションが登場している。
  • Analytics & Visualisation

    • Apache SupersetとMetabaseがオープンソースBIソリューションをリードし、BI-as-Codeが新たなカテゴリとして台頭。コンポーザブルBIスタックが新たなトレンドとなっている。

Data Extract/Load

Airbyte

Airbyteの年次カンファレンス「move(data) 2025」が3月20日に開催予定

Airbyteの年次カンファレンスである「move(data) 2025」が3月20日に開催予定です。

無料でオンラインから参加可能となっております。

https://airbyte.com/blog/move-data-2025-must-attend-data-and-ai-event

https://movedata.airbyte.com/

最新バージョンであるv1.5.0がリリース

Airbyteの最新バージョンであるv1.5.0がリリースされました。主なアップデート内容は下記となります。

  • Connector BuilderにおいてOAuth 2.0を用いた認証が利用できるように
  • Connectionのタグによる分類
  • Self-Managed Enterprise版のUIやOpenTelemetry関係のアップデート

https://docs.airbyte.com/release_notes/v-1.5

Omnata

Sync設定時にサーバーレスタスクを利用できるように

Omnataの最新バージョンであるv3.42で、Sync設定時にウェアハウスの指定がされていない場合は、サーバーレスタスクに関する権限をチェックした上で、サーバーレスタスクでSync設定がされるようになりました。

https://docs.omnata.com/omnata-product-documentation/omnata-sync-for-snowflake/release-history#v3.42

Data Warehouse/Data Lakehouse

Snowflake

Snowflake Summit 2025のOpening KeynoteでSam Altman氏が登壇予定

Snowflake Summit 2025のOpening KeynoteでSam Altman氏が登壇予定であることが発表されました。Snowflake社のCEOであるSridhar Ramaswamy氏と対談するセッションが予定されているとのことです。

https://www.snowflake.com/en/news/press-releases/sam-altman-to-keynote-seventh-annual-snowflake-summit/

Dynamic Tablesの最新機能について

Mediumにおいて、Dynamic Tablesのこの半年ほどで追加された新機能についてまとめられた記事が出ていました。

  • 増分更新時のエンジンが更新された
  • TARGET_LAG = 'DOWNSTREAM' を設定した際に、連鎖するDynamic Tablesの更新がよりスムーズに
  • INFORMATION_SCHEMA.DYNAMIC_TABLE_REFRESH_HISTORYビューに、COMPUTE_COST列や REFRESH_TRIGGER列が追加
  • CTEやサブクエリに対応
  • テーブルの再作成不要で、ALTER文で使用するウェアハウスを変更できるように

https://medium.com/snowflake/whats-new-with-snowflake-dynamic-tables-b8826cb0d4c1

Databricks

DatabricksでDelta Lake UniFormを有効化したテーブルをSnowflakeから参照させる例

DatabricksでDelta Lake UniFormを有効化したDeltaテーブルをSnowflakeから参照させる方法について、Qiitaにて記事が出ていました。

Databricksでは基本的にDelta Lakeの形式でテーブルが作られますが、Delta Lake UniFormを用いるとDelta LakeだけでなくApache IcebergやApache Hudiにも対応して、単一のデータファイルから各フォーマットのメタデータを自動的に生成できるのが素晴らしいですね!

https://qiita.com/Mitsuhiro_Itagaki/items/86e9c17d827fdd45d068

Data Transform

dbt

dbt Cloudのジョブをyamlベースで定義できるOSS「dbt-jobs-as-code」

私も@civitaspoさんの投稿で知ったのですが、dbt Cloudのジョブをyamlベースで定義できる「dbt-jobs-as-code」というOSSが公開されています。v1.0.0のリリースは2024年12月で、現在も定期的にアップデートが行われています。

https://github.com/dbt-labs/dbt-jobs-as-code

Business Intelligence

Looker

Gemini関連の機能がプレビュー

LookerでGemini関連の機能がプレビューとなりました。

https://cloud.google.com/looker/docs/release-notes

1つ目としてLooker(Original)にて、Geminiを用いたCustom VisualizationとLookMLの生成機能がプレビューとなりました。「Gemini in Looker」という名称でリリースされています。

https://cloud.google.com/looker/docs/overview-gemini

https://cloud.google.com/looker/docs/admin-panel-platform-gil

2つ目としてLooker(Original)とLooker(Google Cloud Core)どちらでも、Studio in Lookerと上述のGemini in Lookerを有効化していると、Conversational Analyticsが利用できるという機能もプレビューとなっております。

https://cloud.google.com/looker/docs/studio/query-your-data-in-natural-language-gemini

Omni

CSVアップロード、AI summariesなどの新機能をリリース

Omniが新機能として、CSVアップロード、AI summariesなどの新機能をリリースしました。(2025年2月20日のリリースです。)

https://omni.co/changelog

Omniのdbt IDEを用いてdbtのModelの開発の紹介記事・動画

Omni社のブログにおいて、Omniのdbt IDEを用いてdbtのModelの開発の紹介記事とそのデモ動画が公開されていました。

Omniの中で「dbtのModelを変更して、そのまま開発環境のスキーマを元にBIで参照」というプロセスが実現できるため、dbt+BIを交互に行き来して開発しているケースでは役に立つのではないでしょうか。

https://omni.co/blog/creating-and-editing-dbt-models-with-omnis-dbt-ide

Lightdash

GUI上で定義したCustom metricsをコード化してプルリクエストを発行できる機能をリリース

Lightdashが新機能として、グラフ作成の画面で定義したCustom metricsをコード化してプルリクエストを発行できる機能をリリースしました。これは個人的にはかなり嬉しい機能です!

https://changelog.lightdash.com/write-back-custom-metrics-to-dbt-310331

https://docs.lightdash.com/references/dbt-write-back/#write-back-metrics-from-custom-metrics

Data Orchestration

全般

State of Open Source Workflow Orchestration Systems 2025

約1ヶ月ほど前の記事にはなるのですが、AirflowやDagsterなど、OSSのオーケストレーションツールの現状をまとめた記事が出ていました。

GitHubのスター・プルリクエスト・コミット・イシューの数など定量的な指標を元に各ツールの現状がわかり参考になります。

https://www.pracdata.io/p/state-of-workflow-orchestration-ecosystem-2025

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.