![[2025年8月6日号]個人的に気になったModern Data Stack情報まとめ](https://images.ctfassets.net/ct0aopd36mqt/wp-thumbnail-4c47f61cc8c1b97c00c0efcc68eab01b/ebc4f0c0223a249eae2f9de257dedbcd/eyecatch_moderndatastack_1200_630.jpg)
[2025年8月6日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Table Compare: Safeguarding Data Integrity at Meta
Meta社のブログより、テストデータと本番データの自動比較機能を実装した内容についてまとめた記事が出ていました。
背景としてMeta社では、従来のレビュープロセスではデータ自体への影響が見過ごされがちだったため、テストデータと本番データを比較する自動化された仕組みを導入したとのことです。
記事では、具体的にどのような観点で比較を行いレポートを出力しているか言及されています。
Data Warehouse/Data Lakehouse
Snowflake
Snowflake Intelligenceがパブリックプレビュー
Snowflakeの新機能として、Snowflake Intelligenceがパブリックプレビューとなりました。
Snowflake Intelligenceを使うことで、裏側でCortex Agentsが動き、構造化データと非構造化データを問わず自然言語で問い合わせができるUIが提供されます。今後のアップデートとして外部ツールと連携してデータを用いたアクションを実行することも以下のYouTube動画を見る限りでは期待できますので、楽しみですね!
QUERY_INSIGHTSビューで新たな最適化に関するインサイトを取得できるように
クエリパフォーマンスの影響分析を行うことができるQUERY_INSIGHTSビューについて、新しく以下の情報が含まれるようになりました。一般的に言われるJoin Explosionが起きている場合の検知と、検索最適化サービスがうまく機能していることを検知できるようになっています!
- クエリまたはサブクエリにWHERE句がないため、クエリはテーブル全体をスキャンし、意図したよりも多くの行を返す可能性があること
- 少なくとも1つの他の結合の出力を含む結合では、結合されるテーブルにある行よりも多くの行が返されていること
- 2つのデータ セット (テーブル、ビュー、またはテーブル関数呼び出しからの出力など) の結合により、結合されるテーブルにある行よりも多くの行が返されていること
- 検索最適化によりクエリのパフォーマンスが向上したこと
QUERY_INSIGHTSビューの使い方に関しては、私も一度ブログにしていますのでこちらも併せてご覧ください。
既存のSparkコードを用いてSnowflake上で直接データ処理を実行できる「Snowpark Connect for Spark」がプレビュー
Snowflakeの新機能として、既存のSparkコードを用いてSnowflake内で直接データ処理を実行できる「Snowpark Connect for Spark」がプレビューとなりました。
これまでSnowflakeでSparkを使用するには、Spark Connectorを使う方法がありましたがこの方法では一度Snowflakeの外にデータが出てしまいSnowflakeのコンピュートリソースを使う事ができません。一方で、SparkからSnowparkへ移行する方法もありましたが、どうしてもコードの書き換えなどが発生してしまいます。
今回リリースされたSnowpark Connect for Sparkは、既存のSparkコードをそのまま用いる形でSnowflake上でデータを処理できることに強みがあります。
BigQuery
Agentspaceが一般提供&Data Agentがプレビュー
チャットでのLLMとの質疑応答・Deep Research・ノーコードエージェントなどの機能を持つGoogle Agentspaceが一般提供となり、併せてData Agentがプレビューとなりました。
Data Agentは、BigQueryをデータソースとして、データに関する分析を自然言語で行ったり、クエリを生成したりできるAgentです。
Databricks
2025年7月のAI/BI Dashboard・Genie・Lakeflow Declarative Pipelinesの新機能まとめ記事
Databricksの公式ブログより、2025年7月のAI/BI Dashboard・Genie・Lakeflow Declarative Pipelinesの新機能まとめ記事が出ていました。
私個人の感想ですが、Databricksのダッシュボードではダッシュボードテーマやダッシュボード全体へのフィルターを定義できるなど、単一のプラットフォームのBI機能としては本当にリッチだなと感じております。
また、GenieでMetric Viewで定義したメトリクスが今後使用できるようになる予定であると言及があったので、こちらも楽しみです!!
Onehouse
レイクハウスアーキテクチャ向けに設計されたデータロード機能「OneFlow」を発表
Onehouseが新機能として、レイクハウスアーキテクチャ向けに設計されたデータロード機能「OneFlow」を発表しました。
OneFlowは、「一度取り込めば、どこからでもクエリできる」をコンセプトに、データをユーザー自身のクラウドストレージに保存し、OneSyncを用いて複数のカタログに同期させることで、Trino, Spark, Snowflakeなど任意のエンジンでのデータ活用を可能にするという仕組みを取っているようです。
lakeFS
新しく2000万USDの資金調達を発表
データレイクに対してGitのようにバージョン管理を行えるサービスを提供しているlakeFSが、新しく2000万USDの資金調達を発表しました。
Business Intelligence
Looker
LookerのMCP Serverがリリース
googleapisのgenai-toolboxリポジトリにて、LookerのMCP Serverがリリースされました。
以下はLinkedInで公開されているデモ動画へのリンクとなります。MCP Serverを介して必要なDimensionの情報を取得し、そのままクエリを発行してClaude Desktop上でHTMLベースの可視化まで行っています。
Looker 25.12のリリースノートが公開
Lookerの最新バージョンである25.12のリリースノートが公開されました。細かい修正などが多い印象です。
ThoughtSpot
Agentic MCP Serverを一般提供
ThoughtSpotが新機能として、Agentic MCP Serverを発表するだけでなく、一般提供としてリリースしました。
Agentic MCP ServerのバックグラウンドとしてThoughtSpotのAI機能であるSpotterが動いているようです。
Data Catalog
OpenMetadata
メタデータの増分更新を発表
OpenMetadataが新機能として、各DWHからメタデータを抽出する際の増分更新を発表しました。現在はSnowflake、BigQuery、Redshiftに対応しているとのことです。
Data Orchestration
Dagster
Dagsterプロジェクトをどのように構成するかをまとめた公式記事
Dagster公式ブログより、Dagsterプロジェクトをどのように構成するかをまとめた公式記事が出ていました。
フォルダ分けをどう行うか、dbt projectをどう配置するか、など構成に関する考え方がまとめられています。
Kestra
Kestraのリポジトリが20,000スターを突破
Kestraのリポジトリが20,000スターを突破し、公式ブログからも記事が出ていました。記事上では、まもなくv1.0がリリース予定であるとも言及されていました。
2025/8/6時点では、PrefectとDagsterを超えるスター数となっています!Kestraの勢いがすごいですね。
最新バージョンであるv0.24がリリース
Kestraより最新バージョンとしてv0.24がリリースされました。
1つ1つのタスクを実行しながら確認できるPlayground、Slackへの通知機能の強化、などが気になりました。