[2026年3月4日号]個人的に気になったModern Data Stack情報まとめ

[2026年3月4日号]個人的に気になったModern Data Stack情報まとめ

2026.03.04

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Git for Data Applied: Comparing Git-like Tools That Separate Metadata from Data

MotherDuckのブログにて、Simon Späti氏によるデータ版Gitツールの比較記事(Part 2)が公開されました。Part 2では、実際のツールがどのようにメタデータとデータを分離し、コピーオンライトやポインタ操作によって大規模データの複製コストを抑えつつバージョン管理を実現しているかを実践的に比較しています。

取り上げられているツールは以下の6つです。

  • LakeFS:データレイク上でのブランチングとゼロコピークローンによるバージョニング
  • Dolt:コピーオンライト方式のバージョニングを備えたSQLデータベース
  • Nessie:データレイク向けのカタログレベルバージョニング
  • Bauplan:パイプライン中心のバージョニング
  • MotherDuck:差分ストレージによるサーバーレスウェアハウス
  • DuckLake:無制限スナップショットを持つSQL ネイティブレイクハウス

ストレージアーキテクチャ(データレイク vs データベース vs ウェアハウス)、クローンの仕組み(ゼロコピー vs コピーオンライト)、マージ機能、タイムトラベルの実装方法など、ツールごとの設計思想の違いが整理されており、ユースケースに応じた選定の参考になります。

https://motherduck.com/blog/git-for-data-part-2/

Data Extract/Load

Airbyte

Agent Engineがパブリックベータに

Airbyteが、AI Agent向けのデータインテグレーション基盤「Agent Engine」のパブリックベータを2026年2月19日に開始しました。

Agent Engineは、OAuth認証の管理、ページネーション、レートリミット、API変換などをマネージドで提供し、HubSpot・Salesforce・Gong・Linear・GitHubなど20以上のAgentコネクタを初期提供しています。Airbyteの600以上のデータコネクタエコシステムから、さらに多くのコネクタが追加予定とのことです。

AI Agentがコンテキストウィンドウに生のAPIレスポンスを流し込むのではなく、構造化・エンリッチされたデータを提供する設計となっており、Agent向けのデータ統合基盤として注目です。

https://airbyte.com/blog/agent-engine-public-beta

Data Warehouse/Data Lakehouse

Snowflake

Snowflake Postgresが一般提供

Snowflake上でマネージドなPostgreSQLインスタンスを立ち上げられるSnowflake Postgresが一般提供となりました。

現時点ではまだできないのですが、個人的な要望としては、従来のSnowflakeのテーブルとZero ETL的にSnowflake Postgresをクエリできる機能がリリースされることを期待しております…!

https://docs.snowflake.com/en/release-notes/2026/other/2026-02-24-snowflake-postgres-ga

Snowsight上でAIを用いてデータ品質チェックをセットアップできる機能がプレビュー

Snowflakeの新機能として、Snowsight上でデータ品質チェックをセットアップできる機能がプレビューとして提供されました。

実際に私も試して以下のブログでまとめていますが、とても簡単に設定ができるため、Snowflakeだけで基盤を構築している方のデータ品質監視にとてもお勧めしやすくなりました。

https://dev.classmethod.jp/articles/snowflake-setup-data-quality-checks-in-snowsight/

また、データ品質チェック時に問題を検知した場合に通知する機能もありますので、こちらと併せてご活用ください。

https://dev.classmethod.jp/articles/snowflake-dmf-notification/

Hybrid Tablesの料金体系が簡素化

2026年3月1日より、Hybrid Tablesのリクエスト課金が廃止され、ストレージ(GB単位の月額定額)とコンピュート(通常のウェアハウス消費)の2カテゴリのみの課金に変更されました。

https://docs.snowflake.com/en/release-notes/2026/other/2026-03-02-hybrid-tables-pricing

Openflow Connector for OracleがGA

SnowflakeのOpenflow Connector for Oracleが一般提供となりました。CDCを用いてOracleデータベースのテーブルをSnowflakeにニアリアルタイムまたはスケジュールベースでレプリケーションできます。Oracle 12cR2以降のオンプレミス、Oracle Exadata、OCIに対応しています。

https://docs.snowflake.com/en/release-notes/2026/other/2026-02-27-openflow-oracle-ga

dbt Projects on Snowflakeでdbtのv1.10.15が利用できるようになり、バージョン選択も可能に

新しいパラメータとしてDBT_VERSIONが追加され、dbtプロジェクトの明示的なバージョン固定をサポートするようになりました。

また、これまではdbtのバージョンがv1.9.4でしたが、公式にもサポートされているv1.10.15が利用できるようになりました。

https://docs.snowflake.com/en/release-notes/2026/other/2026-03-02-dbt-core-versions

BigQuery

リージョンを跨いだクエリ実行が可能となるGlobal queriesがプレビュー

BigQueryで、異なるリージョンに保存されたデータを単一のSQLクエリで参照できる「Global Queries」がプレビューとなりました。

例えば、us-central1のテーブルとeurope-central2のテーブルをJOINするクエリを1回で実行でき、BigQueryが自動的にクロスリージョンのデータ移動を処理します。ETL不要でマルチリージョン分析が可能になります。

デフォルトでは無効化されており、意図しないデータ転送やコストを防ぐ設計となっています。現時点ではクエリあたり各リージョン最大10テーブルの制限があります。

https://docs.cloud.google.com/bigquery/docs/global-queries?hl=en

Databricks

Microsoft ExcelからDatabricksへの接続機能がプレビュー

DatabricksワークスペースをMicrosoft Excelに接続し、管理されたレイクハウスデータをスプレッドシートに直接取り込める機能がプレビュー提供となりました。

https://docs.databricks.com/aws/ja/integrations/excel

ClickHouse

ClickHouseが「Agentic Data Stack」を発表

ClickHouseが、AI AgentがデータソースにSQLで直接アクセスし分析を行うための、オープンソースのコンポーザブルアーキテクチャ「Agentic Data Stack」を発表しました。

このスタックは以下の3つのオープンソースレイヤーで構成されています。

  • LibreChat:ChatGPTライクなUIで、複数のLLMプロバイダーに対応するフロントエンド
  • ClickHouse:分析データベースエンジン
  • Langfuse:2026年1月にClickHouseが買収した、LLMオブザーバビリティプラットフォーム

SQLを書くことなく、数十億行のデータに対してAI Agentがクエリを実行し、インタラクティブな可視化やインサイトを提供できるとしています。

各レイヤーが独立して利用可能かつオープンソースである点が、ベンダーロックインを避けたい現場には刺さる構成です。Agent向けの分析基盤として、DWHベンダー側からの提案が具体化してきた印象を受けます。

Data Catalog

Atlan

Icebergネイティブコネクタがパブリックプレビュー、マルチレベルビジネスリネージも提供開始

Atlanにて、Iceberg関連の複数のアップデートがありました。

  • Icebergネイティブコネクタ(パブリックプレビュー):REST仕様準拠のカタログやBigLake Metastoreをサポートし、カタログ・ネームスペース・テーブル・カラムのメタデータ取り込みが可能に
  • マルチレベルビジネスリネージ:データプロダクト間の接続を複数の階層にわたって追跡でき、エンドツーエンドのビジネスフローの理解や変更影響の評価が可能に
  • Atlan Lakehouseでの利用分析:usage_analyticsネームスペースが追加され、コンピュートプラットフォームから直接利用データをクエリしてダッシュボード構築が可能に

https://shipped.atlan.com/get-complete-visibility-into-your-iceberg-assets-in-atlan-2zGcda

https://shipped.atlan.com/navigate-your-data-estate-better-with-multi-level-business-lineage-3MC1va

https://shipped.atlan.com/analyze-atlan-product-usage-using-atlan-lakehouse-yM8SI

OpenMetadata

OpenMetadata 1.12リリース

OSSのメタデータプラットフォームであるOpenMetadataが、バージョン1.12をリリースしました。

  • カスタムAuto Classification:正規表現パターン・カラム名・データコンテンツスキャンを用いたカスタム認識器の作成が可能に。誤検知のフィードバックループにより精度が向上する仕組み
  • Data Quality テストテンプレート:パラメータ化されたSQLベースのテストテンプレートをUIから作成でき、組織全体で一貫したデータ品質テストを再利用可能に
  • セマンティック検索:ベクトル埋め込みによるセマンティック検索をサポート(BedrockおよびOpenAI Embeddingsに対応)
  • MCP toolingの強化:OpenMetadataのMCPにリネージ作成やデータ品質関連のツール(テスト定義、テストケース作成、Root Cause Analysis)が追加
  • 新コネクタ:Microsoft Fabric、Dremio、MuleSoft、SFTP、Redshift Serverless、StarRocksなどに対応
  • オープン標準対応:ODCS 3.1、OpenLineageをサポート

MCPツールの拡充により、AI Agentがリネージ作成やデータ品質管理までカタログ経由で操作できるようになった点が注目です。カタログがAI Agentのコンテキストソースとしてだけでなく、操作対象としても進化しています。

https://blog.open-metadata.org/announcing-openmetadata-1-12-9e15b66e7748

Collate 1.12リリース

OpenMetadataのマネージド版であるCollateも同日にバージョン1.12をリリースしました。上記のOSS版の機能に加え、Collate固有の機能が追加されています。

  • AI Studio:データプラットフォームを支えるAIエージェントの可視化・制御が可能に。エージェントのプロンプトをカスタマイズし、組織のニーズに合わせた出力に調整できる
  • Collate AI SDK:CollateのAIエージェントとセマンティックレイヤーへのプログラマティックアクセスを提供。カスタムチャットボットの構築やガバナンスタスクの自動化、外部アプリケーションへのメタデータインテリジェンスの統合が可能に
  • Data Diff Column/Row Analysis:指定したソーステーブルとターゲットテーブル間の差異を列、行、文字レベルで詳細に視覚的に比較できるように
  • AskCollate Microsoft Teams連携:Microsoft TeamsからAskCollateを利用可能に

AI StudioとCollate AI SDKにより、カタログのメタデータをAIエージェントがプログラマティックに活用する基盤が整備されてきている印象です。

https://www.getcollate.io/blog/announcing-collate-1-12

Data Quality・Data Observability

Soda

Soda AI CLI(オープンベータ)を発表

ターミナル上で動作するデータ品質エージェント「Soda AI CLI」をオープンベータとして発表しました。OSSのデータ品質エンジンであるsoda-coreの一部として提供され、追加インストールやAPIキーなしでsoda aiコマンドで利用できます。

主な機能は以下の通りです。

  • データコントラクトの自動生成:テーブル構造、dbtモデル、パイプラインスクリプトを入力として、スキーマ定義・品質チェック・フレッシュネスルール・閾値を含む完全なデータコントラクトを生成
  • ODCSコントラクトのSoda形式への変換:ODCS形式の既存コントラクトをSoda Contract Languageに自動翻訳
  • v3チェックファイルからv4データコントラクトへのマイグレーション:構文やメンタルモデルが異なるv3→v4への移行を自動処理
  • コンテキストを踏まえたデータ品質の質問応答:実際のファイルやセットアップを考慮した回答を提供

https://soda.io/blog/introducing-soda-ai-cli

この記事をシェアする

FacebookHatena blogX

関連記事