[2025年8月6日号]個人的に気になったModern Data Stack情報まとめ

[2025年8月6日号]個人的に気になったModern Data Stack情報まとめ

2025.08.06

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Table Compare: Safeguarding Data Integrity at Meta

Meta社のブログより、テストデータと本番データの自動比較機能を実装した内容についてまとめた記事が出ていました。

背景としてMeta社では、従来のレビュープロセスではデータ自体への影響が見過ごされがちだったため、テストデータと本番データを比較する自動化された仕組みを導入したとのことです。

記事では、具体的にどのような観点で比較を行いレポートを出力しているか言及されています。

https://medium.com/@AnalyticsAtMeta/table-compare-safeguarding-data-integrity-at-meta-bb77e5363dd4

Data Warehouse/Data Lakehouse

Snowflake

Snowflake Intelligenceがパブリックプレビュー

Snowflakeの新機能として、Snowflake Intelligenceがパブリックプレビューとなりました。

Snowflake Intelligenceを使うことで、裏側でCortex Agentsが動き、構造化データと非構造化データを問わず自然言語で問い合わせができるUIが提供されます。今後のアップデートとして外部ツールと連携してデータを用いたアクションを実行することも以下のYouTube動画を見る限りでは期待できますので、楽しみですね!

https://docs.snowflake.com/en/release-notes/2025/other/2025-08-01-snowflake-intelligence

https://docs.snowflake.com/en/user-guide/snowflake-cortex/snowflake-intelligence

https://www.youtube.com/watch?v=va-l7sYp3OA

QUERY_INSIGHTSビューで新たな最適化に関するインサイトを取得できるように

クエリパフォーマンスの影響分析を行うことができるQUERY_INSIGHTSビューについて、新しく以下の情報が含まれるようになりました。一般的に言われるJoin Explosionが起きている場合の検知と、検索最適化サービスがうまく機能していることを検知できるようになっています!

  • クエリまたはサブクエリにWHERE句がないため、クエリはテーブル全体をスキャンし、意図したよりも多くの行を返す可能性があること
  • 少なくとも1つの他の結合の出力を含む結合では、結合されるテーブルにある行よりも多くの行が返されていること
  • 2つのデータ セット (テーブル、ビュー、またはテーブル関数呼び出しからの出力など) の結合により、結合されるテーブルにある行よりも多くの行が返されていること
  • 検索最適化によりクエリのパフォーマンスが向上したこと

https://docs.snowflake.com/en/release-notes/2025/9_20#new-query-insights-about-join-performance-and-optimization

QUERY_INSIGHTSビューの使い方に関しては、私も一度ブログにしていますのでこちらも併せてご覧ください。

https://dev.classmethod.jp/articles/snowflake-query-insights-view/

既存のSparkコードを用いてSnowflake上で直接データ処理を実行できる「Snowpark Connect for Spark」がプレビュー

Snowflakeの新機能として、既存のSparkコードを用いてSnowflake内で直接データ処理を実行できる「Snowpark Connect for Spark」がプレビューとなりました。

これまでSnowflakeでSparkを使用するには、Spark Connectorを使う方法がありましたがこの方法では一度Snowflakeの外にデータが出てしまいSnowflakeのコンピュートリソースを使う事ができません。一方で、SparkからSnowparkへ移行する方法もありましたが、どうしてもコードの書き換えなどが発生してしまいます。

今回リリースされたSnowpark Connect for Sparkは、既存のSparkコードをそのまま用いる形でSnowflake上でデータを処理できることに強みがあります。

https://www.snowflake.com/en/blog/snowpark-connect-apache-spark-preview/

https://docs.snowflake.com/en/developer-guide/snowpark-connect/snowpark-connect-overview

BigQuery

Agentspaceが一般提供&Data Agentがプレビュー

チャットでのLLMとの質疑応答・Deep Research・ノーコードエージェントなどの機能を持つGoogle Agentspaceが一般提供となり、併せてData Agentがプレビューとなりました。

https://cloud.google.com/agentspace/docs/release-notes

Data Agentは、BigQueryをデータソースとして、データに関する分析を自然言語で行ったり、クエリを生成したりできるAgentです。

https://cloud.google.com/agentspace/agentspace-enterprise/docs/data-agent

Databricks

2025年7月のAI/BI Dashboard・Genie・Lakeflow Declarative Pipelinesの新機能まとめ記事

Databricksの公式ブログより、2025年7月のAI/BI Dashboard・Genie・Lakeflow Declarative Pipelinesの新機能まとめ記事が出ていました。

私個人の感想ですが、Databricksのダッシュボードではダッシュボードテーマやダッシュボード全体へのフィルターを定義できるなど、単一のプラットフォームのBI機能としては本当にリッチだなと感じております。

また、GenieでMetric Viewで定義したメトリクスが今後使用できるようになる予定であると言及があったので、こちらも楽しみです!!

https://www.databricks.com/blog/whats-new-aibi-july-2025-roundup

https://www.databricks.com/blog/whats-new-lakeflow-declarative-pipelines-july-2025

Onehouse

レイクハウスアーキテクチャ向けに設計されたデータロード機能「OneFlow」を発表

Onehouseが新機能として、レイクハウスアーキテクチャ向けに設計されたデータロード機能「OneFlow」を発表しました。

OneFlowは、「一度取り込めば、どこからでもクエリできる」をコンセプトに、データをユーザー自身のクラウドストレージに保存し、OneSyncを用いて複数のカタログに同期させることで、Trino, Spark, Snowflakeなど任意のエンジンでのデータ活用を可能にするという仕組みを取っているようです。

https://www.onehouse.ai/blog/introducing-oneflow-ingest-once-query-anywhere

lakeFS

新しく2000万USDの資金調達を発表

データレイクに対してGitのようにバージョン管理を行えるサービスを提供しているlakeFSが、新しく2000万USDの資金調達を発表しました。

https://lakefs.io/media-mentions/lakefs-secures-20m-in-growth-capital/

https://lakefs.io/blog/ai-gap-vision-for-funding-round/

Business Intelligence

Looker

LookerのMCP Serverがリリース

googleapisのgenai-toolboxリポジトリにて、LookerのMCP Serverがリリースされました。

https://googleapis.github.io/genai-toolbox/resources/tools/looker/

以下はLinkedInで公開されているデモ動画へのリンクとなります。MCP Serverを介して必要なDimensionの情報を取得し、そのままクエリを発行してClaude Desktop上でHTMLベースの可視化まで行っています。

https://www.linkedin.com/posts/szinsmeister_googledatacloud-activity-7354218061039603712-ja4Y/

Looker 25.12のリリースノートが公開

Lookerの最新バージョンである25.12のリリースノートが公開されました。細かい修正などが多い印象です。

https://cloud.google.com/looker/docs/release-notes

ThoughtSpot

Agentic MCP Serverを一般提供

ThoughtSpotが新機能として、Agentic MCP Serverを発表するだけでなく、一般提供としてリリースしました。

Agentic MCP ServerのバックグラウンドとしてThoughtSpotのAI機能であるSpotterが動いているようです。

https://www.thoughtspot.com/blog/introducing-agentic-mcp-server

Data Catalog

OpenMetadata

メタデータの増分更新を発表

OpenMetadataが新機能として、各DWHからメタデータを抽出する際の増分更新を発表しました。現在はSnowflake、BigQuery、Redshiftに対応しているとのことです。

https://blog.open-metadata.org/incremental-extraction-improves-metadata-ingestion-in-openmetadata-f95aac8b0eb5

https://docs.open-metadata.org/latest/connectors/ingestion/workflows/metadata/incremental-extraction

Data Orchestration

Dagster

Dagsterプロジェクトをどのように構成するかをまとめた公式記事

Dagster公式ブログより、Dagsterプロジェクトをどのように構成するかをまとめた公式記事が出ていました。

フォルダ分けをどう行うか、dbt projectをどう配置するか、など構成に関する考え方がまとめられています。

https://dagster.io/blog/how-to-structure-your-dagster-project

Kestra

Kestraのリポジトリが20,000スターを突破

Kestraのリポジトリが20,000スターを突破し、公式ブログからも記事が出ていました。記事上では、まもなくv1.0がリリース予定であるとも言及されていました。

https://kestra.io/blogs/kestra-reach-20k-stars

2025/8/6時点では、PrefectとDagsterを超えるスター数となっています!Kestraの勢いがすごいですね。

最新バージョンであるv0.24がリリース

Kestraより最新バージョンとしてv0.24がリリースされました。

1つ1つのタスクを実行しながら確認できるPlayground、Slackへの通知機能の強化、などが気になりました。

https://kestra.io/blogs/release-0-24

この記事をシェアする

facebookのロゴhatenaのロゴtwitterのロゴ

© Classmethod, Inc. All rights reserved.