![[2025年6月25日号]個人的に気になったModern Data Stack情報まとめ](https://images.ctfassets.net/ct0aopd36mqt/wp-thumbnail-4c47f61cc8c1b97c00c0efcc68eab01b/ebc4f0c0223a249eae2f9de257dedbcd/eyecatch_moderndatastack_1200_630.jpg)
[2025年6月25日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
SnowflakeとDatabricksの両社のSummitに対する見解
Orchestra社のCEOより、SnowflakeとDatabricksの両社のSummitに対する見解をまとめた記事が出ていました。
記事では、Snowflakeが「使いやすさ」を重視し、より多くのユーザーをエコシステムに取り込もうとしている点を指摘。その戦略を象徴する新機能として、自然言語でデータ探索を行うSnowflake IntelligenceやCortex Agents、データ取り込みを簡素化するSnowflake Openflow、そしてdbt Projectsのネイティブサポートなどが紹介されています。
筆者は、Snowflakeが幅広い層にアピールする「開かれたエコシステム」を目指す一方、Databricksは既存の技術ユーザー向けに、より専門的なユースケースを拡大する戦略を取っていると対比。AIエージェントの「メモリ」としてPostgresが重要になる中で、両社は異なるペルソナをターゲットにすることで、その競争の形を変化させていると結論づけています。
Data Extract/Load
Airbyte
Airbyteの最新バージョン「1.7」がリリース
Airbyteの最新バージョンとして、1.7がリリースされました。
ファイルとそのメタデータの転送にも対応したことが一番大きいアップデートと感じました。(現在はZendesk Supportなど一部のコネクタ、DestinationはS3のみ、という仕様となっています。)
Omnata
まもなく新しいUIに刷新したバージョンがリリース
Omnataの製品アップデート記事が公開され、まもなく新しいUIに刷新したバージョンがリリースされると言及がありました。
この新しいUIでは、StreamlitのCustom Componentを用いているようです。
Data Warehouse/Data Lakehouse
Snowflake
Snowflake Summit 2025に関するRecap記事
Snowflake Summit 2025が開催されましたが、その発表内容のRecapや振り返りを行っている記事が投稿されています。
カラム名が一致する場合にUNIONできる「UNION BY NAME」がリリース
SQLでUNIONの処理を行う際、列の順序ではなくカラム名が一致する場合にUNIONできる「UNION BY NAME」がリリースされました。
私も実際に試してみましたので、以下の記事も参考になると幸いです。
SELECT社のSnowflakeに関する最新記事
非常に参考になるSnowflakeの解説記事を提供してくれるSELECT社のブログにおいて、最新記事が2つ出ていました。
- タグの活用について
- SnowflakeにおけるCI/CDとDevOpsについて ※Part1のみ掲載
Databricks
DATA + AI SUMMIT 2025が開催
Databricksの最も大きな年次イベントであるDATA + AI SUMMIT 2025が開催されました。
私が特に気になった発表は以下になります。
- Lakebase
- レイクハウスと統合されたフルマネージドなPostgreSQLデータベース
- Lakebase はコンピューティングとストレージを分離するアーキテクチャを活用し、低レイテンシ (< 10 ミリ秒) かつ高同時実行トランザクション (> 10k qps) をサポート
- 買収したNeonの技術を用いた、Gitブランチのようなデータセット自体のブランチ機能(参考:Xの投稿)
- LakebaseはUnity Catalogで管理されるテーブルと同期可能
- 公式ブログ:Announcing Lakebase Public Preview
- 公式ブログ:What Is a Lakebase?
- 公式ドキュメント
- Databricks Free Editionを提供開始
- Agent Bricks
- タスクを記述することで、高品質でドメイン固有のエージェントを構築できる機能
- 評価用のベンチマークの自動作成、自動最適化、もサポート。(こちらのXの投稿によると、ユーザーのリクエストに対する回答を自動で記録し評価もしてくれそう)
- 公式ブログ:Introducing Agent Bricks: Auto-Optimized Agents Using Your Data
- Databricks Appsの一般提供
- MLflow 3.0のリリース
- Mosaic AI Gatewayが一般提供
- MCPのサポート
- Unity Catalogに対してアクセスできるManaged MCP servers
- ユーザーが任意のMCP ServerをDatabricks appとしてホストできるCustom MCP servers
- 公式ドキュメント
- 公式ブログ:Announcing managed MCP servers with Unity Catalog and Mosaic AI Integration
- DatabricksでのApache Icebergのサポートを発表(パブリックプレビュー)
- Databricksや外部エンジンを使用して、Unity Catalogで管理されるIcebergテーブルを作成可能
- Unity CatalogでのIceberg REST Catalog APIの実装
- 公式ブログ:Announcing full Apache Iceberg™ support in Databricks
- Delta Sharing・Marketplaceのアップデート
- Snowflake含むIceberg互換エンジンへのクロスプラットフォーム提供と、IcebergテーブルをDelta Sharingでシェア可能に(プライベートプレビュー)
- Delta Sharing Network Gatewayにより、外部共有時のネットワーク設定を簡素化(プライベートプレビュー)
- SAP Business Data Cloudなど、パートナー製品のデータに複製無しでアクセス(SAP Business Data Cloudについては近日公開)
- 公式ブログ:What’s New with Data Sharing and Collaboration - Summer 2025
- Databricks Lakeflowが一般提供となり、ノーコードでパイプラインを実装できるLakeflow Designerも発表
- Lakeflow Connect:外部サービスへのコネクタ
- Lakeflow Declarative Pipelines:SparkのDeclarative Pipelinesを用いた、DLTとの互換性もあるデータパイプライン開発機能。専用のIDEもあり。(DLTのドキュメントが本機能のドキュメントとなっていたため、DLTのリブランディング機能かもしれません。)
- Lakeflow Jobs:ジョブオーケストレーション機能(旧称:Databricks Workflows)
- Lakeflow Designer:ドラッグ&ドロップと自然言語のサポートを備えた、ノーコードのパイプラインビルダー。出力はLakeflow Declarative Pipelinesのコードとして出力される(Lakeflow Designerは数ヶ月以内にプライベートプレビュー)
- 公式ブログ:Announcing the General Availability of Databricks Lakeflow
- 公式ブログ:Announcing Lakeflow Designer: No-Code ETL, Powered by the Databricks Intelligence Platform
- Databricks SQL
- 2022年以降、実際の顧客ワークロードのパフォーマンスが5倍向上するアップデートを行い、最新リリースでは価格変更なしで自動的にパフォーマンスが25%向上、とのこと。これらのアップデートはserverless SQL warehousesに対して自動で展開されている
- 公式ブログ:Databricks SQL accelerates customer workloads by 5x in just three years
- AI/BI Genieが一般提供
- AI/BI Genieは、自然言語でデータに関する質問をして洞察を得ることが出来る機能
- 公式ブログ:AI/BI Genie is now Generally Available
- Databricks One(今夏広範にパブリックベータ版がリリース予定)
- ビジネスユーザー向けに設計され、単一の画面で、AI/BIダッシュボード・AI/BI Genie・Databricksアプリ、に自然言語でアクセス可能な機能
- 公式ブログ:Introducing Databricks One
- Unity Catalogの新機能
- Iceberg REST Catalog APIをフルサポートし、Unity Catalogが管理するIcebergテーブルへの外部エンジンによる読み取り(一般提供)および書き込み(パブリックプレビュー)を可能に
- Unity Catalog Metricsにより、一度作成したメトリクスをDatabricks内はもちろん、Tableau、Hex、Sigma、ThoughtSpot、Omni などの BIツールや、Anomalo、Monte Carloなどのオブザーバビリティツールへ拡張予定(現在パブリックプレビュー、今夏後半に一般提供)
- データ品質モニタリング機能も提供(ベータ版)
- 公式ブログ:What’s new with Databricks Unity Catalog at Data + AI Summit 2025
MotherDuck/DuckDB
Apache Arrow Flight SQL
DuckDBをREST APIやJDBC経由で利用する際に生じるパフォーマンス課題と、その解決策を提示する記事がMotherDuck社のブログにて公開されました。
記事では、JSONへのシリアライズや行指向プロトコルのオーバーヘッドを問題視し、解決策としてgRPC上でカラムナデータ(Apache Arrow)を直接転送する「Apache Arrow Flight SQL」を紹介しています。
DuckDBで同プロトコルを有効化するOSSサーバー「Hatch」や「GizmoSQL」の実装例も取り上げられており、データ提供におけるアーキテクチャの最適化を検討する上で参考になる内容となっています。
Data Transform
dbt
dbt Core 1.10がリリース
dbt Coreの最新バージョンとして、1.10がリリースとなりました。
--sample
フラグ、dbt Coreのアーティファクトをdbt CloudにシームレスにアップロードできるHybrid Projects、freshness
などがconfig:
配下に記述するように変更、などが挙げられます。
dbt Labs社の社員によるdbt Insights機能の魅力について語る記事
dbt Labs社のブログより、dbt Labs社の社員が実際にdbt Insights機能を触ってみて、その魅力について語る記事が出ていました。
記事では、dbt Catalogのドキュメントから直接クエリを記述する画面に遷移できる機能や、dbt Copilotによって分析の開始をスムーズにできる点を紹介しています。
さらに、dbt Semantic Layerのクエリ構文を自動入力する機能や、メトリクスの裏側で実行されるSQLを可視化する機能も取り上げられています。これにより、アナリストは信頼性の高いデータをより迅速かつ自信を持って扱えるようになり、チーム全体の生産性向上に貢献するとしています。
dbt Insightsについては私も一度試して記事にしておりますので、こちらも参考になると嬉しいです。
Business Intelligence
全般
Analytics and Business Intelligence Platforms分野におけるGartnerの最新レポートが公開
Analytics and Business Intelligence Platforms分野におけるGartnerの最新レポートが公開されました。
以下はGoogle社のブログへのリンクですが、各BIツールの評価がわかるグラフも記載されていますので、ぜひご覧ください。
Looker
CI機能含む、Looker 25.10のリリースノートが公開
Lookerの最新バージョンである25.10のリリースノートが公開されました。
目玉機能としては、Continuous Integration(CI)機能がプレビューでリリースされております。
Tableau
Tableau 2025.2がリリース
Tableauの最新バージョンである2025.2がリリースされました。
リリース内容については、以下のページが参考になると思います。
Apache Superset
Apache Superset 5.0.0がリリース
Apache Supersetの最新バージョンとして5.0.0がリリースされました。
UI面の刷新、ダッシュボードの応答速度の改善、などが行われています。
Data Catalog
Select Star
Select Starの2025年6月のリリースについて
Select StarのChange Logにおいて、2025年6月のリリースについての情報が出ていました。
BIツールからSnowflakeのSemantic View/Modelを自動生成する機能、自然言語での検索機能、dbtのカスタムテストのサポート、といったアップデートが行われています。
Data Quality・Data Observability
Monte Carlo
8四半期連続でG2のData Observability分野で第1位を獲得
Monte Carlo社のブログより、8四半期連続でG2のData Observability分野で第1位を獲得したと発表がありました。