![[2025年10月1日号]個人的に気になったModern Data Stack情報まとめ](https://images.ctfassets.net/ct0aopd36mqt/wp-thumbnail-4c47f61cc8c1b97c00c0efcc68eab01b/ebc4f0c0223a249eae2f9de257dedbcd/eyecatch_moderndatastack_1200_630.jpg?w=3840&fm=webp)
[2025年10月1日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
「Open Semantic Interchange (OSI)」の発足
Snowflake、Salesforce、dbt Labsなどが中心となり、AIのためのデータ活用を促進するオープンソースイニシアチブ「Open Semantic Interchange (OSI)」の発足を発表しました。
この取り組みは、各製品ごとに異なる仕様で散在する断片的なSemantic Layerの定義を、ベンダーニュートラルなオープン仕様によって標準化する共通のセマンティックデータフレームワークの構築を目指すものとなっています。
Launch Partnerとしては下図のベンダーが挙がっています。
以下は本件に関するSnowflakeとSalesforceからのリリースです。
他の参画している製品も本発表に関するブログを投稿しているのですが、中でもSelect Starの投稿が特に気になりました。下図はブログからの引用ですが、このようなことが実現できると、Select Starがハブとなって今回のOpen Semantic Interchangeに参画していないBIツールともSemantic Layerの定義を連携できるため、熱いと思います。
「みんなの考えた最強のデータ基盤アーキテクチャ第5回〜オールスター大集合スペシャル!!」が開催
9/25に、「みんなの考えた最強のデータ基盤アーキテクチャ第5回〜オールスター大集合スペシャル!!」が開催されました。
現地参加100人、オンライン参加500人を超える申し込みがあったイベントで、以下のリンクからハッシュタグ「みん強」を見て頂けると、当日の盛り上がりがよく分かると思います。
以下は私が見つけた範囲で、各登壇者の投影資料へのリンクを張っておきます。
Data Extract/Load
Airbyte
Airbyte 2.0がリリース
Airbyteの最新バージョンとして、メジャーバージョンが上がった2.0がリリースされました。(OSS版はまだ2.0がリリースされていませんでした。)
上記のリンク先からの引用ですが、このような機能がリリースされています。
- Enterprise Flex: control planeとdata planeを分離するアーキテクチャにより、管理はクラウドで行いながら、実際のデータは顧客のインフラ内に留まるハイブリッドモデルを提供
- Data Activation: データウェアハウスから得られたインサイトを、SalesforceやHubSpotといったビジネスアプリケーションに直接同期する機能。いわゆるReverse ETLのプロセスをプラットフォーム内で完結可能に
- Speed: コネクタのアーキテクチャを再設計し、データ同期速度を4〜10倍向上。例えば、MySQLからS3への同期は4.7倍、PostgresからS3へは12倍高速化
- 新しい料金プラン: チームの成長段階に合わせた新しいプラン体系を発表。特にProプラン以上で導入された「Capacity Based Pricing」はデータ転送量ではなく、必要な並列処理能力(Data Workers)に基づいているのが特徴
- Core (旧OSS): 無料のオープンソース版
- Standard (旧Cloud): 従量課金制のマネージドサービス
- Pro (旧Teams): 容量ベースの価格設定で、RBACやSSOなどのガバナンス機能を提供
- Enterprise Flex: Proの全機能に加え、データプレーンをクラウド、マルチクラウド、オンプレミスなど任意の場所にデプロイ可能
- Self-Managed Enterprise: 厳しいセキュリティ要件を持つ組織向けの完全自己管理型エンタープライズ版
Data Warehouse/Data Lakehouse
Snowflake
FILEデータ型が一般提供
Snowflakeで非構造化データを扱うためのFILEデータ型が一般提供となりました。
これにより、Cortex AISQLと組み合わせた画像や文書ファイルに対する生成AI活用が安心してできるようになりました!
Cortex Analystの機能強化
Cortex Analystで機能アップデートがあり、以下2つの新機能が追加されました。Derived metricsは他のSemantic Layerだと出来ていたことですし実際のビジネスでは複数のmetricsを用いた演算が必要になることが多いため、嬉しいですね!
- Private facts and metrics:Semantic Modelの中でmetricsとして定義するが、エンドユーザーからはこのmetricsを直接クエリできないようにする機能(主にDerived metricsだけで使用するmetricsが前提の機能だと思います。)
- Derived metrics:複数のメトリクス同士の演算を行ったmetricsが定義できるようにする、新しいmetrics
dbt Projects on Snowflakeでdocs generateができるように
dbt Projects on Snowflakeでサイレントアップデートがあり、docs generateができるようになっていました。
まだ私も試せてはいないのですが、GitHub Actionsなどでdocsをホストしたい場合にexecute dbt project
コマンドでdocs generateが行えるはずのため、profiles.yml
をdbt Core用に書き換えなくて済むようになります!
Snowflake内でClaude Sonnet 4.5が利用できるように
Snowflake内でClaude Sonnet 4.5が利用できるようになりました。公式Docの方にはまだ記載がありません。
また、サポート対象外のリージョンでもクロスリージョン推論を有効にすることでアクセス可能です。
SELECT社によるSnowflakeの2025年夏にリリースされた機能まとめ記事
SELECT社より、Snowflakeの2025年夏にリリースされた機能まとめ記事が出ていました。
Snowflake×PowerBIを組み合わせる際のプラクティスまとめ記事
phData社のブログより、Snowflake×PowerBIを組み合わせる際のプラクティスまとめ記事が出ていました。
主に以下の内容について言及があります。
- Power BIのネイティブSnowflake Connectorを使用する
- Import、DirectQuery、Compositeモデルの中からユースケースに応じて接続モードを慎重に選択する
- スタースキーマの採用など、データを適切にモデリングする
- Microsoft Entra SSO for Snowflakeを設定する
- ゲートウェイには適切なAzure VMを使用する
- SnowflakeとPower BIのデータセンター間の距離を最小化する
- データモデルの同時クエリ上限を引き上げる
- CopilotなどのAI機能を活用する
BigQuery
Dataplexでカラムレベルリネージが見れるように
Dataplexの新機能として、カラムレベルリネージを見ることができるようになりました。(一般提供)
Geminiを用いた配列のネスト解除機能がリリース
Geminiを用いた、配列の各要素を独立した行に展開できる機能がリリースされました。
BigQuery SQLに関する新機能まとめ記事
Google Cloudのyu yamadaさんにより、BigQuery SQLに関する5つの新機能をまとめた記事が出ていました。
カラム名に基づいたUNION、より簡易な配列操作、
Databricks
Databricks Oneがパブリックプレビュー
ビジネスユーザー向けに設計されたシンプルなユーザーインターフェース「Databricks One」が、パブリックプレビューを開始しました。
下図のようなUIとなっており、自然言語でデータに対して質問したり、関連するダッシュボードなどへそのままリンクもできる機能となっています。
Lakeflow Pipelines Editorがパブリックプレビュー
Databricksが、ETLパイプラインの開発とデバッグを行うための新しいIDE「Lakeflow Pipelines Editor」をパブリックプレビューとしてリリースしました。
下図は上記のリンク先からの引用ですが、ただパイプラインのコードを編集するだけでなく、テーブル間の依存関係を見たり、することも可能となっています。
Databricks内でOpenAI GPT-5とClaude Sonnet 4.5が利用できるように
それぞれ別のニュースではあるのですが、Databricks内でGPT-5とSonnet 4.5が利用できるようになりました。
MotherDuck/DuckDB
DuckDBのducklake拡張機能とDuckLake 0.3がリリース
DuckDBのducklake拡張機能とDuckLake 0.3がリリースされました。ducklake拡張機能の利用には、DuckDB v1.4.0が必要です。
DuckDBのiceberg拡張機能を利用したDuckLakeとIceberg間でのデータコピー、DuckDB v1.4.0でリリースされたMERGE文をducklake拡張機能を介して利用、という点が主なアップデートだと感じました。
MotherDuckがヨーロッパ初のクラウドリージョンをプライベートプレビューとして発表
MotherDuckがヨーロッパ初のクラウドリージョンをプライベートプレビューとして発表しました。
この新リージョンはAWSのeu-central-1
上で稼働し、正式なリリースは今年の秋を予定しているとのことです。
Business Intelligence
Looker
Gemini CLIからLookerにアクセスできるように
Gemini CLIの拡張機能として、Lookerにアクセスできる機能がリリースされました。
利用できるExploreの確認や指定したExploreの中で利用できるdimensionとmeasureの確認はもちろん、Lookerに対するLookやダッシュボードの作成もできるようです。
Data Activation (Reverse ETL)
Hightouch
Hightouchの中でDashboardが利用可能に
Hightouchの新機能として、複数のグラフを統合してダッシュボードとする機能がリリースされました。
キャンペーンのパフォーマンス確認用のダッシュボードなど、Hightouch側でまとめて確認したいケースはあると思うのでその際に役立つと思います。
Data Orchestration
Airflow
Airflow 3.1がリリース
Airflowの最新バージョンである3.1がリリースされました。
Astronomer社のブログより、どのような機能が追加されたかまとめられた記事が投稿されています。
AIワークフローに対するサポート機能の向上、ReactベースのUIに対応したインターフェースにアップデート、DAGのお気に入り機能、などが追加されているようです。