[2025年8月6日号]個人的に気になったModern Data Stack情報まとめ

2025.08.06

さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項：記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
 Modern Data Stack全般 Table Compare: Safeguarding Data Integrity at MetaMeta社のブログより、テストデータと本番データの自動比較機能を実装した内容についてまとめた記事が出ていました。
背景としてMeta社では、従来のレビュープロセスではデータ自体への影響が見過ごされがちだったため、テストデータと本番データを比較する自動化された仕組みを導入したとのことです。
記事では、具体的にどのような観点で比較を行いレポートを出力しているか言及されています。
https://medium.com/@AnalyticsAtMeta/table-compare-safeguarding-data-integrity-at-meta-bb77e5363dd4
 Data Warehouse/Data Lakehouse Snowflake Snowflake IntelligenceがパブリックプレビューSnowflakeの新機能として、Snowflake Intelligenceがパブリックプレビューとなりました。
Snowflake Intelligenceを使うことで、裏側でCortex Agentsが動き、構造化データと非構造化データを問わず自然言語で問い合わせができるUIが提供されます。今後のアップデートとして外部ツールと連携してデータを用いたアクションを実行することも以下のYouTube動画を見る限りでは期待できますので、楽しみですね！
https://docs.snowflake.com/en/release-notes/2025/other/2025-08-01-snowflake-intelligence
https://docs.snowflake.com/en/user-guide/snowflake-cortex/snowflake-intelligence
https://www.youtube.com/watch?v=va-l7sYp3OA
 QUERY_INSIGHTSビューで新たな最適化に関するインサイトを取得できるようにクエリパフォーマンスの影響分析を行うことができるQUERY_INSIGHTSビューについて、新しく以下の情報が含まれるようになりました。一般的に言われるJoin Explosionが起きている場合の検知と、検索最適化サービスがうまく機能していることを検知できるようになっています！
クエリまたはサブクエリにWHERE句がないため、クエリはテーブル全体をスキャンし、意図したよりも多くの行を返す可能性があること
少なくとも1つの他の結合の出力を含む結合では、結合されるテーブルにある行よりも多くの行が返されていること
2つのデータ セット (テーブル、ビュー、またはテーブル関数呼び出しからの出力など) の結合により、結合されるテーブルにある行よりも多くの行が返されていること
検索最適化によりクエリのパフォーマンスが向上したこと
https://docs.snowflake.com/en/release-notes/2025/9_20#new-query-insights-about-join-performance-and-optimization
QUERY_INSIGHTSビューの使い方に関しては、私も一度ブログにしていますのでこちらも併せてご覧ください。
https://dev.classmethod.jp/articles/snowflake-query-insights-view/
 既存のSparkコードを用いてSnowflake上で直接データ処理を実行できる「Snowpark Connect for Spark」がプレビューSnowflakeの新機能として、既存のSparkコードを用いてSnowflake内で直接データ処理を実行できる「Snowpark Connect for Spark」がプレビューとなりました。
これまでSnowflakeでSparkを使用するには、Spark Connectorを使う方法がありましたがこの方法では一度Snowflakeの外にデータが出てしまいSnowflakeのコンピュートリソースを使う事ができません。一方で、SparkからSnowparkへ移行する方法もありましたが、どうしてもコードの書き換えなどが発生してしまいます。
今回リリースされたSnowpark Connect for Sparkは、既存のSparkコードをそのまま用いる形でSnowflake上でデータを処理できることに強みがあります。
https://www.snowflake.com/en/blog/snowpark-connect-apache-spark-preview/
https://docs.snowflake.com/en/developer-guide/snowpark-connect/snowpark-connect-overview
 BigQuery Agentspaceが一般提供＆Data AgentがプレビューチャットでのLLMとの質疑応答・Deep Research・ノーコードエージェントなどの機能を持つGoogle Agentspaceが一般提供となり、併せてData Agentがプレビューとなりました。
https://cloud.google.com/agentspace/docs/release-notes
Data Agentは、BigQueryをデータソースとして、データに関する分析を自然言語で行ったり、クエリを生成したりできるAgentです。
https://cloud.google.com/agentspace/agentspace-enterprise/docs/data-agent
 Databricks 2025年7月のAI/BI Dashboard・Genie・Lakeflow Declarative Pipelinesの新機能まとめ記事Databricksの公式ブログより、2025年7月のAI/BI Dashboard・Genie・Lakeflow Declarative Pipelinesの新機能まとめ記事が出ていました。
私個人の感想ですが、Databricksのダッシュボードではダッシュボードテーマやダッシュボード全体へのフィルターを定義できるなど、単一のプラットフォームのBI機能としては本当にリッチだなと感じております。
また、GenieでMetric Viewで定義したメトリクスが今後使用できるようになる予定であると言及があったので、こちらも楽しみです！！
https://www.databricks.com/blog/whats-new-aibi-july-2025-roundup
https://www.databricks.com/blog/whats-new-lakeflow-declarative-pipelines-july-2025
 Onehouse レイクハウスアーキテクチャ向けに設計されたデータロード機能「OneFlow」を発表Onehouseが新機能として、レイクハウスアーキテクチャ向けに設計されたデータロード機能「OneFlow」を発表しました。
OneFlowは、「一度取り込めば、どこからでもクエリできる」をコンセプトに、データをユーザー自身のクラウドストレージに保存し、OneSyncを用いて複数のカタログに同期させることで、Trino, Spark, Snowflakeなど任意のエンジンでのデータ活用を可能にするという仕組みを取っているようです。
https://www.onehouse.ai/blog/introducing-oneflow-ingest-once-query-anywhere
 lakeFS 新しく2000万USDの資金調達を発表データレイクに対してGitのようにバージョン管理を行えるサービスを提供しているlakeFSが、新しく2000万USDの資金調達を発表しました。
https://lakefs.io/media-mentions/lakefs-secures-20m-in-growth-capital/
https://lakefs.io/blog/ai-gap-vision-for-funding-round/
 Business Intelligence Looker LookerのMCP Serverがリリースgoogleapisのgenai-toolboxリポジトリにて、LookerのMCP Serverがリリースされました。
https://googleapis.github.io/genai-toolbox/resources/tools/looker/
以下はLinkedInで公開されているデモ動画へのリンクとなります。MCP Serverを介して必要なDimensionの情報を取得し、そのままクエリを発行してClaude Desktop上でHTMLベースの可視化まで行っています。
https://www.linkedin.com/posts/szinsmeister_googledatacloud-activity-7354218061039603712-ja4Y/
 Looker 25.12のリリースノートが公開Lookerの最新バージョンである25.12のリリースノートが公開されました。細かい修正などが多い印象です。
https://cloud.google.com/looker/docs/release-notes
 ThoughtSpot Agentic MCP Serverを一般提供ThoughtSpotが新機能として、Agentic MCP Serverを発表するだけでなく、一般提供としてリリースしました。
Agentic MCP ServerのバックグラウンドとしてThoughtSpotのAI機能であるSpotterが動いているようです。
https://www.thoughtspot.com/blog/introducing-agentic-mcp-server
 Data Catalog OpenMetadata メタデータの増分更新を発表OpenMetadataが新機能として、各DWHからメタデータを抽出する際の増分更新を発表しました。現在はSnowflake、BigQuery、Redshiftに対応しているとのことです。
https://blog.open-metadata.org/incremental-extraction-improves-metadata-ingestion-in-openmetadata-f95aac8b0eb5
https://docs.open-metadata.org/latest/connectors/ingestion/workflows/metadata/incremental-extraction
 Data Orchestration Dagster Dagsterプロジェクトをどのように構成するかをまとめた公式記事Dagster公式ブログより、Dagsterプロジェクトをどのように構成するかをまとめた公式記事が出ていました。
フォルダ分けをどう行うか、dbt projectをどう配置するか、など構成に関する考え方がまとめられています。
https://dagster.io/blog/how-to-structure-your-dagster-project
 Kestra Kestraのリポジトリが20,000スターを突破Kestraのリポジトリが20,000スターを突破し、公式ブログからも記事が出ていました。記事上では、まもなくv1.0がリリース予定であるとも言及されていました。
https://kestra.io/blogs/kestra-reach-20k-stars
2025/8/6時点では、PrefectとDagsterを超えるスター数となっています！Kestraの勢いがすごいですね。
Kestra：20,162
Prefect：20,005
Dagster：13,711
Airflow：41,399
 最新バージョンであるv0.24がリリースKestraより最新バージョンとしてv0.24がリリースされました。
1つ1つのタスクを実行しながら確認できるPlayground、Slackへの通知機能の強化、などが気になりました。
https://kestra.io/blogs/release-0-24

[2025年8月6日号]個人的に気になったModern Data Stack情報まとめ

Modern Data Stack全般

Table Compare: Safeguarding Data Integrity at Meta

Data Warehouse/Data Lakehouse

Snowflake

Snowflake Intelligenceがパブリックプレビュー

QUERY_INSIGHTSビューで新たな最適化に関するインサイトを取得できるように

既存のSparkコードを用いてSnowflake上で直接データ処理を実行できる「Snowpark Connect for Spark」がプレビュー

BigQuery

Agentspaceが一般提供＆Data Agentがプレビュー

Databricks

2025年7月のAI/BI Dashboard・Genie・Lakeflow Declarative Pipelinesの新機能まとめ記事

Onehouse

レイクハウスアーキテクチャ向けに設計されたデータロード機能「OneFlow」を発表

lakeFS

新しく2000万USDの資金調達を発表

Business Intelligence

Looker

LookerのMCP Serverがリリース

Looker 25.12のリリースノートが公開

ThoughtSpot

Agentic MCP Serverを一般提供

Data Catalog

OpenMetadata

メタデータの増分更新を発表

Data Orchestration

Dagster

Dagsterプロジェクトをどのように構成するかをまとめた公式記事

Kestra

Kestraのリポジトリが20,000スターを突破

最新バージョンであるv0.24がリリース

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS