![[2025年5月28日号]個人的に気になったModern Data Stack情報まとめ](https://images.ctfassets.net/ct0aopd36mqt/wp-thumbnail-4c47f61cc8c1b97c00c0efcc68eab01b/ebc4f0c0223a249eae2f9de257dedbcd/eyecatch_moderndatastack_1200_630.jpg)
[2025年5月28日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
SalesforceがInformaticaを買収
SalesforceがInformaticaを買収したというプレスリリースがSalesforce社より出ていました。
Informaticaが持つ、データ統合、カタログ、MDM管理、など豊富なデータ基盤に関連する機能がSalesforceプラットフォーム上に統合されることで、Salesforceプラットフォーム上で多くのことが完結できるようになりそうです。
以下はOrchestra社のCEOがこの買収を受けて出した記事となります。以下の画像は記事から引用したもので、直近9年ほどのSalesforce社の買収の履歴が記載されていますが、すごい勢いで多くの企業を買収していますね…
Data Warehouse/Data Lakehouse
Snowflake
Snowflake Openflowがリリース
Snowflakeの新機能として、Openflowがリリースされました。(2025/5/28時点ではパブリックプレビュー)
OpenflowはApache NiFiをベースとしたサービスで、各種データソースの取り込みと加工に使用できるサービスとなっております。
MFAの認証にTOTPとパスキーをサポート
Snowflakeの新機能として、MFAの認証にTOTPとパスキーが利用できるようになりました。(一度リリースノートから消えていて心配だったのですが、改めてリリースされてよかったです!)
弊社でもブログにしておりますので、併せてぜひご覧ください。
アカウント・組織レベルでコストの異常を自動で検知・通知してくれる「Cost anomalies」機能がリリース
Snowflakeの新機能として、アカウント・組織レベルでコストの異常を自動で検知・通知してくれる「Cost anomalies」機能がリリースされました。(2025/5/28時点ではパブリックプレビュー)
早速私も試してみましたが、過去のコスト状況をグラフで見ながら異常の詳細を確認できたり、メールアドレスを設定することで異常を検知したらアラートができたり、便利な機能となっております。
terraform-provider-snowflakeのロードマップが更新
GA後では初となりますが、terraform-provider-snowflakeのロードマップが更新されました。
今後数ヶ月の重点項目として、PAT、SPCS、Listing、Account管理機能、Snowflake REST APIをProviderに導入するPoC、といった内容が挙げられています。
dbtを用いてStreamlit in Snowflakeのアプリをデプロイする方法
phData社のブログにおいて、dbtを用いてStreamlit in Snowflakeのアプリをデプロイする方法をまとめた記事が出ていました。
確かにSQLでデプロイが実施できるのでマクロ化すればできるよなと思いながらも、この発想はなかったので面白かったです。
BigQuery
画像から認識した情報をそのままテーブルに書き込める「GENERATE_TABLE」関数を発表
BigQueryの新機能として、画像から認識した情報をそのままテーブルに書き込める「GENERATE_TABLE」関数を発表しました。
以下は上述のブログからの引用ですが、事前に画像を保存したGCSに対するExternal TableとLLMのModelオブジェクトを定義しておいて、クエリを実行することで画像から得られた情報をテーブルに記録することが可能です。
Onehouse
新しいクエリエンジン「Quanton」を発表
Onehouse Compute Runtimeで利用できる新しいクエリエンジン「Quanton」を発表しました。
Apache SparkとSQLに対応しており、EMR・Snowflake・Databricksのコンピュートリソースを用いるよりも安価と言及されています。
MotherDuck/DuckDB
メタデータ管理をデータベースで担う新しいLakehouseフォーマット「DuckLake」を発表
DuckDBの公式ブログにおいて、DuckLakeが発表されました。
昨今のIcebergやDelta Lakeではファイルベースでメタデータを管理するという複雑性があったことを課題認識し、そのメタデータ管理を担うレイヤーをIcebergでいうカタログレイヤーも含めて全てSQLデータベースで担う方向性で実装したプロダクトが、DuckLakeとなっております。
DuckLakeのメリットとして、以下4つが以下のブログで言及されています。
- Simplicity
- DuckLakeをラップトップPCで実行するには、DuckDBをインストールしてDuckLakeの拡張機能を使用するだけでOK(この場合はDuckDBのローカルファイルがカタログ管理を担う)
- AvroファイルもJSONファイルもない、すべてのメタデータ管理はデータベースのテーブルで制御
- Scalability
- ストレージ、コンピュート、メタデータ管理、の3つを分離したアーキテクチャ
- Speed
- 従来のOpen Table Formatと異なりファイルI/Oが必要ではない
- 小規模な変更に対して書き込むファイル数を削減、同時に発生した変更も対応可能
- Features
- SQLをベースに操作でき、ACID準拠のトランザクション、列の追加・削除・データ型の変更、が可能
- DuckLakeがストレージに書き込むデータと削除ファイルはIcebergと互換性があるためメタデータのみの移行が可能
- DuckLakeのコンピュートノードについてはDuckDBの拡張機能として同時にリリース済(DuckDB v1.3.0から利用可能)
以下がDuckLakeの公式サイトと公式リポジトリとなります。
追記:簡素な内容になりますが、DuckLakeを試してみて以下のブログにまとめてみました。
DuckDB 1.3.0がリリース
DuckDBの最新バージョンである1.3.0がリリースされました。
外部ファイルクエリ時のキャッシュ機能、CLIのコマンドで直接parquet・csv・jsonファイルをクエリ、あたりが特に気になりました。
Data Transform
dbt
Hybrid projectsに関するドキュメントが公開
dbtの新機能であるHybrid projectsに関するドキュメントが公開されていました。(2025/5/28時点ではPrivate Betaでの提供)
事前にdbt Cloudに関する環境変数を定義しておくことで、dbt Coreでdbt run
など実行した際にmanifest.json
などのアーティファクトをdbt Cloudに自動でアップロードできるようです。
Data Application
Streamlit
StreamlitでGen AIアプリを構築する際のプラクティスまとめ記事
Streamlitの公式ブログで、StreamlitでGen AIアプリを構築する際のプラクティスまとめ記事が出ていました。
ディレクトリ構成、APIキーの保持方法、コンテキストの維持方法、キャッシュの活用、など広範に渡って説明がされています。
Business Intelligence
Looker
Studio in Lookerに対して一部のLookerのPermissionが適用されるように
Studio in Lookerに対して一部のLookerのPermissionが適用されるようになりました。(プレビュー)
以下のドキュメントで言及があり、explore
やsee_user_dashboards
が適用されるため、Studio in Lookerにおいても権限のあるExploreやダッシュボードだけが利用できるということが可能になります。
Looker 25.8のリリースノートが公開
Looker 25.8のリリースノートが公開されました。
Code Interpreter in Conversational Analyticsと、gemini_in_looker
のpermissionが特定のmodelに対して適用できるようになった、というアップデートが特に気になりました。
Power BI
2025年5月のアップデート内容まとめブログ
Microsoft社の公式ブログより、Power BIの2025年5月のアップデート内容をまとめたブログが出ていました。
私自身はPower BIのことをあまり詳しくないのですが、Power BIに特化したCopilot機能、AIに向けたSemantic Modelの定義、などのアップデートが中心に感じました。
また、Power BI含むMicrosoft Fabricの今後のロードマップについては、以下のページで公開されていくようです。
Hex
Hashboardの買収を発表(2025年4月30日の情報)
2025年4月30日の情報ではあるのですが、HexがHashboardの買収を発表しました。
Hashboard自体は私も初耳だったのですが、事前にデータモデルを定義した上でダッシュボードを構築していくタイプのBIツールとなっています。
Data Catalog
Secoda
Secodaの2025年4月のアップデート情報まとめ
Secoda公式サイトより、2025年4月のアップデート情報まとめのページが更新されていました。
個人的には、以下のアップデートが特に気になりました。
- Snowflake MarketplaceでSecodaのネイティブアプリがリリース
- Omniが統合可能になり、リネージを表示可能に
Data Activation (Reverse ETL)
Hightouch
Journey機能でテスト実行によるシミュレーションができるように
Journeyの新機能として、Journey作成後にテスト実行によるシミュレーションができるようになりました。
以下は上記リンク先からの引用ですが、各フローや宛先においてどれだけのレコードが同期されるのかをシミュレーションできるようになっております。