[2025年5月28日号]個人的に気になったModern Data Stack情報まとめ

[2025年5月28日号]個人的に気になったModern Data Stack情報まとめ

Clock Icon2025.05.28

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

SalesforceがInformaticaを買収

SalesforceがInformaticaを買収したというプレスリリースがSalesforce社より出ていました。

Informaticaが持つ、データ統合、カタログ、MDM管理、など豊富なデータ基盤に関連する機能がSalesforceプラットフォーム上に統合されることで、Salesforceプラットフォーム上で多くのことが完結できるようになりそうです。

https://www.salesforce.com/news/press-releases/2025/05/27/salesforce-signs-definitive-agreement-to-acquire-informatica/

以下はOrchestra社のCEOがこの買収を受けて出した記事となります。以下の画像は記事から引用したもので、直近9年ほどのSalesforce社の買収の履歴が記載されていますが、すごい勢いで多くの企業を買収していますね…

https://dataopsleadership.substack.com/p/breaking-salesforce-buys-informatica

2025-05-28_10h23_54

Data Warehouse/Data Lakehouse

Snowflake

Snowflake Openflowがリリース

Snowflakeの新機能として、Openflowがリリースされました。(2025/5/28時点ではパブリックプレビュー)

OpenflowはApache NiFiをベースとしたサービスで、各種データソースの取り込みと加工に使用できるサービスとなっております。

https://docs.snowflake.com/en/release-notes/2025/other/2025-05-20-openflow

MFAの認証にTOTPとパスキーをサポート

Snowflakeの新機能として、MFAの認証にTOTPとパスキーが利用できるようになりました。(一度リリースノートから消えていて心配だったのですが、改めてリリースされてよかったです!)

https://docs.snowflake.com/en/release-notes/2025/other/2025-05-23-mfa

弊社でもブログにしておりますので、併せてぜひご覧ください。

https://dev.classmethod.jp/articles/snowflake-snowsight-time-based-one-time-password/

アカウント・組織レベルでコストの異常を自動で検知・通知してくれる「Cost anomalies」機能がリリース

Snowflakeの新機能として、アカウント・組織レベルでコストの異常を自動で検知・通知してくれる「Cost anomalies」機能がリリースされました。(2025/5/28時点ではパブリックプレビュー)

https://docs.snowflake.com/en/release-notes/2025/other/2025-05-16-cost

早速私も試してみましたが、過去のコスト状況をグラフで見ながら異常の詳細を確認できたり、メールアドレスを設定することで異常を検知したらアラートができたり、便利な機能となっております。

https://dev.classmethod.jp/articles/snowflake-cost-anomalies-pupr/

terraform-provider-snowflakeのロードマップが更新

GA後では初となりますが、terraform-provider-snowflakeのロードマップが更新されました。

今後数ヶ月の重点項目として、PAT、SPCS、Listing、Account管理機能、Snowflake REST APIをProviderに導入するPoC、といった内容が挙げられています。

https://github.com/snowflakedb/terraform-provider-snowflake/blob/main/ROADMAP.md

dbtを用いてStreamlit in Snowflakeのアプリをデプロイする方法

phData社のブログにおいて、dbtを用いてStreamlit in Snowflakeのアプリをデプロイする方法をまとめた記事が出ていました。

確かにSQLでデプロイが実施できるのでマクロ化すればできるよなと思いながらも、この発想はなかったので面白かったです。

https://www.phdata.io/blog/how-to-deploy-snowflake-streamlit-apps-the-easiest-method-explained-using-dbt/

BigQuery

画像から認識した情報をそのままテーブルに書き込める「GENERATE_TABLE」関数を発表

BigQueryの新機能として、画像から認識した情報をそのままテーブルに書き込める「GENERATE_TABLE」関数を発表しました。

https://cloud.google.com/blog/products/data-analytics/convert-ai-generated-unstructured-data-to-a-bigquery-table?hl=en

以下は上述のブログからの引用ですが、事前に画像を保存したGCSに対するExternal TableとLLMのModelオブジェクトを定義しておいて、クエリを実行することで画像から得られた情報をテーブルに記録することが可能です。

2025-05-28_07h58_16

Onehouse

新しいクエリエンジン「Quanton」を発表

Onehouse Compute Runtimeで利用できる新しいクエリエンジン「Quanton」を発表しました。

Apache SparkとSQLに対応しており、EMR・Snowflake・Databricksのコンピュートリソースを用いるよりも安価と言及されています。

https://www.onehouse.ai/blog/announcing-spark-and-sql-on-the-onehouse-compute-runtime-with-quanton

MotherDuck/DuckDB

メタデータ管理をデータベースで担う新しいLakehouseフォーマット「DuckLake」を発表

DuckDBの公式ブログにおいて、DuckLakeが発表されました。

昨今のIcebergやDelta Lakeではファイルベースでメタデータを管理するという複雑性があったことを課題認識し、そのメタデータ管理を担うレイヤーをIcebergでいうカタログレイヤーも含めて全てSQLデータベースで担う方向性で実装したプロダクトが、DuckLakeとなっております。

DuckLakeのメリットとして、以下4つが以下のブログで言及されています。

  • Simplicity
    • DuckLakeをラップトップPCで実行するには、DuckDBをインストールしてDuckLakeの拡張機能を使用するだけでOK(この場合はDuckDBのローカルファイルがカタログ管理を担う)
    • AvroファイルもJSONファイルもない、すべてのメタデータ管理はデータベースのテーブルで制御
  • Scalability
    • ストレージ、コンピュート、メタデータ管理、の3つを分離したアーキテクチャ
  • Speed
    • 従来のOpen Table Formatと異なりファイルI/Oが必要ではない
    • 小規模な変更に対して書き込むファイル数を削減、同時に発生した変更も対応可能
  • Features
    • SQLをベースに操作でき、ACID準拠のトランザクション、列の追加・削除・データ型の変更、が可能
    • DuckLakeがストレージに書き込むデータと削除ファイルはIcebergと互換性があるためメタデータのみの移行が可能
    • DuckLakeのコンピュートノードについてはDuckDBの拡張機能として同時にリリース済(DuckDB v1.3.0から利用可能)

https://duckdb.org/2025/05/27/ducklake

以下がDuckLakeの公式サイトと公式リポジトリとなります。

https://ducklake.select/

https://github.com/duckdb/ducklake

追記:簡素な内容になりますが、DuckLakeを試してみて以下のブログにまとめてみました。

https://dev.classmethod.jp/articles/ducklake-database-based-approach-lakehouse/

DuckDB 1.3.0がリリース

DuckDBの最新バージョンである1.3.0がリリースされました。

外部ファイルクエリ時のキャッシュ機能、CLIのコマンドで直接parquet・csv・jsonファイルをクエリ、あたりが特に気になりました。

https://duckdb.org/2025/05/21/announcing-duckdb-130.html

Data Transform

dbt

Hybrid projectsに関するドキュメントが公開

dbtの新機能であるHybrid projectsに関するドキュメントが公開されていました。(2025/5/28時点ではPrivate Betaでの提供)

事前にdbt Cloudに関する環境変数を定義しておくことで、dbt Coreでdbt runなど実行した際にmanifest.jsonなどのアーティファクトをdbt Cloudに自動でアップロードできるようです。

https://docs.getdbt.com/docs/deploy/hybrid-projects

Data Application

Streamlit

StreamlitでGen AIアプリを構築する際のプラクティスまとめ記事

Streamlitの公式ブログで、StreamlitでGen AIアプリを構築する際のプラクティスまとめ記事が出ていました。

ディレクトリ構成、APIキーの保持方法、コンテキストの維持方法、キャッシュの活用、など広範に渡って説明がされています。

https://blog.streamlit.io/best-practices-for-building-genai-apps-with-streamlit/

Business Intelligence

Looker

Studio in Lookerに対して一部のLookerのPermissionが適用されるように

Studio in Lookerに対して一部のLookerのPermissionが適用されるようになりました。(プレビュー)

https://cloud.google.com/looker/docs/release-notes#May_20_2025

以下のドキュメントで言及があり、exploresee_user_dashboardsが適用されるため、Studio in Lookerにおいても権限のあるExploreやダッシュボードだけが利用できるということが可能になります。

https://cloud.google.com/looker/docs/overview-of-studio-in-looker-permissions

Looker 25.8のリリースノートが公開

Looker 25.8のリリースノートが公開されました。

Code Interpreter in Conversational Analyticsと、gemini_in_lookerのpermissionが特定のmodelに対して適用できるようになった、というアップデートが特に気になりました。

https://cloud.google.com/looker/docs/release-notes#May_14_2025

Power BI

2025年5月のアップデート内容まとめブログ

Microsoft社の公式ブログより、Power BIの2025年5月のアップデート内容をまとめたブログが出ていました。

私自身はPower BIのことをあまり詳しくないのですが、Power BIに特化したCopilot機能、AIに向けたSemantic Modelの定義、などのアップデートが中心に感じました。

https://powerbi.microsoft.com/ja-jp/blog/power-bi-may-2025-feature-summary/?cdn=disable

また、Power BI含むMicrosoft Fabricの今後のロードマップについては、以下のページで公開されていくようです。

https://roadmap.fabric.microsoft.com/?product=powerbi

Hex

Hashboardの買収を発表(2025年4月30日の情報)

2025年4月30日の情報ではあるのですが、HexがHashboardの買収を発表しました。

https://hex.tech/blog/welcoming-hashboard/

Hashboard自体は私も初耳だったのですが、事前にデータモデルを定義した上でダッシュボードを構築していくタイプのBIツールとなっています。

https://hashboard.com/

Data Catalog

Secoda

Secodaの2025年4月のアップデート情報まとめ

Secoda公式サイトより、2025年4月のアップデート情報まとめのページが更新されていました。

https://www.secoda.co/product-news/april-2025

個人的には、以下のアップデートが特に気になりました。

  • Snowflake MarketplaceでSecodaのネイティブアプリがリリース

https://www.secoda.co/blog/secoda-snowflake-native-app-marketplace

https://app.snowflake.com/marketplace/listing/GZTSZ113XX0X/secoda-secoda

  • Omniが統合可能になり、リネージを表示可能に

https://www.secoda.co/blog/secoda-integration-omni

Data Activation (Reverse ETL)

Hightouch

Journey機能でテスト実行によるシミュレーションができるように

Journeyの新機能として、Journey作成後にテスト実行によるシミュレーションができるようになりました。

https://hightouch.com/blog/journey-simulations

以下は上記リンク先からの引用ですが、各フローや宛先においてどれだけのレコードが同期されるのかをシミュレーションできるようになっております。

3e6c20e3024b6c45e40a11ef4a942c7de098abab-1440x982

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.