![[2025年4月2日号]個人的に気になったModern Data Stack情報まとめ](https://images.ctfassets.net/ct0aopd36mqt/wp-thumbnail-4c47f61cc8c1b97c00c0efcc68eab01b/ebc4f0c0223a249eae2f9de257dedbcd/eyecatch_moderndatastack_1200_630.jpg)
[2025年4月2日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Data Extract/Load
Airbyte
Airbyteの年次カンファレンスであるMove(data)が3月20日に開催されました
Airbyteの年次カンファレンスであるMove(data)が3月20日に開催されました。
関連して、この冬の期間に発表された新機能をまとめたブログも投稿されています。(以下は記事のAI要約です。)
-
Data Access
- Oracle、SAP HANA、NetSuiteなどのプレミアムコネクタを含むEnterprise Connector Bundleの提供
- GraphQLとOAuth 2.0のサポート強化によるセキュアな認証と効率的なデータ移行
- Google Drive、SharePoint、OneDriveなどの非構造化データ対応のファイル転送サポート拡張
-
Data Control & Governance
- AWS PrivateLinkのサポートによるセキュアなクラウド間データ転送
- 詳細な監査ログ機能によるコンプライアンス監視とガバナンス強化
- GDPR、HIPAA、SOC 2コンプライアンス対応のデータプライバシーとガバナンスマッピング機能
-
Data Portability & AI Workloads
- Apache IcebergのDestinationサポートによる高スケーラブルなAIおよび分析ワークロード対応
- スキーマ進化サポートと非構造化データ移行の強化
-
Platform & Performance Improvements
- Amazon Ads、Google Sheetsなど主要コネクタのパフォーマンス向上
- Python-Based CDKによる効率的なカスタムコネクタ開発
- 接続タグとリソース管理機能の追加
- OpenTelemetry (OTEL) Metricsによるパイプライン監視の強化
Airbyte用のMCP Serverの構築例
Airbyteの公式ブログより、Airbyte用のMCP Serverの構築例を記載した記事が出ていました。
「Airbyte用MCP Serverってどう使うんだ…?」と正直私も感じたのですが、この記事ではコネクタのステータスを確認する例などが載っていました。
Data Warehouse/Data Lakehouse
Snowflake
対象のテーブルに新しいレコードが追加されたときに指定した条件式を実行してアラートが出来るように
Snowflakeの新機能として、対象のテーブルに新しいレコードが追加されたときに指定した条件式を実行してアラートが出来るようになりました。
こちらは非常に熱い機能だったため、私も2本ブログを書いてみました。
- タスクとDynamic Tableのエラーをイベントテーブルにログとして吐き出すようにして新しいログがあった場合にアラートで通知を出す
- 対象のテーブルに新しいデータが入ってきた際に、nullがないかなどのデータ品質チェックを行い異常があった場合にアラートで通知を出す
terraform-provider-snowflakeがGAに向けてSnowflake-Labsからsnowflakedbへ移行
terraform-provider-snowflakeのROADMAP.mdが更新され、terraform-provider-snowflakeがGAに向けてSnowflake-Labsからsnowflakedbへ移行されるようです。
「GAとv1.0って何が違うの?」と思ったのですが、Snowflake公式サポートの対応がGAによって追加されるとのことです。
having official Snowflake support (ability to submit official Support Cases for the Provider);
migrating the project to the snowflakedb GitHub organization (we are still in Snowflake-Labs, reserved for unofficial/experimental projects).
Data Transform
全般
dbtとSQLMeshでの列レベルリネージの違いまとめ
Recceのブログにおいて、VS Codeの拡張機能、dbt Explorer、Recce、SQLMesh、でどのように列レベルリネージの違いがあるかをまとめた記事が出ていました。
dbt
3月20日にdbt Developer Dayが開催され、SDFの機能を統合した新しいエンジンなど最新機能が公開
3月20日にdbt Developer Dayが開催され、最新機能の発表が多く行われました。
個人的には以下の内容が気になりました。
- SDFの機能を搭載したdbtの新しいエンジンと、新しいエンジンを利用するための公式によるVS Code拡張を発表(現在は利用のために申請が必要)
- dbt CopilotがGA
- dbt Core 1.10もBeta版が公開。新機能の1つとして、ビルド時にサンプリングを行える
--sample
が追加 - BigQuery DataFramesを搭載したPythonモデルをサポート予定
dbt Copilotが一般提供
dbt CloudのIDE上で、自然言語でリクエストを出しsqlやyamlの自動生成を行うことができる「dbt Copilot」が一般提供となりました。
実際に私も試してみた内容をブログにしてまとめていますので、ぜひこちらも併せてご覧ください。
SELECT社によるdbtでの開発~ビルドをSlimに行うプラクティスまとめ記事
SELECT社により、dbtでの開発~デプロイをSlimに行うプラクティスをまとめた記事が3つ出ていました。
具体的にまとまっており、参考になります!
--defer
フラグ、--empty
フラグ、refマクロの改修など含めた、ローカルでのSlimなビルドの方法state:modified
、--defer
フラグ、cloneやswapの活用などを含めた、SlimなCI/CDの方法source_status:fresher+
、tag付けなどを用いた、Slimなスケジュールビルドの方法
Coalesce
CoalesceがCastorDocの買収を発表
GUIベースでデータモデリングと変換パイプラインの構築を行えるCoalesceが、データカタログのサービスであるCastorDocの買収を発表しました。
CastorDoc(旧名Castor)は何度かブログでも取り上げていたので、個人的には衝撃的なニュースでした。
SQLMesh(Tobiko Cloud)
Tobiko Cloudが一般提供
SQLMeshのSaaS版でもあるTobiko Cloudが一般提供となりました。
以下は記事で述べられているTobiko Cloudの機能について、生成AIで要約した内容となります。
-
Granular, actionable observability and insights
- ランタイムアラート、統合デバッガー、ウェアハウスコスト追跡の3つの可観測性機能を搭載
- アラートは設定が簡単で、失敗したランや閾値超過を検出し、Slack、PagerDuty、メールで通知
- デバッガーはエラー解決のための重要なコンテキストを一箇所に集約
- コストトラッカーはBigQuery、Snowflakeなどのエンジンの支出を分析し、最もコストのかかるモデルを特定
-
Intuitive, efficient built-in orchestration
- SQLMeshのステート対応アーキテクチャに基づいたネイティブスケジューラーを搭載
- 同時実行とモデル実行の一時停止機能により、パイプラインのボトルネックを最小化
- 複数のモデルを並行して実行可能で、長時間実行されるジョブによるブロックを防止
- モデル実行の一時停止機能で、メンテナンスや問題調査中に本番実行を一時的に停止可能
-
Best-in-class security and data governance
- 分離されたPython環境とハイブリッドデプロイメントオプションを提供
- 分離されたPython環境は各実行に必要な依存関係のみをインストール
- ハイブリッドデプロイメントでは、すべてのデータとウェアハウス操作をユーザー自身のインフラ内に保持可能
-
Advanced impact and change analysis
- 高度な変更カテゴリ化機能により、下流で使用される変更列を評価し、不要なバックフィルを削減
- クロスデータベース差分検出をサポートし、複数のウェアハウス間でデータセットバージョンを比較可能
- ハッシュアルゴリズムを使用して高コストの完全結合を回避し、ベンダー間の移行やデータドリフトの検出を効率化
Business Intelligence
Tableau
Tableau 2025.1がリリースされました
Tableauの最新バージョンである2025.1がリリースされました。
VizQL Data Service API、Tableau CloudへのPrivateLinkでの接続、Tableau Agentの多言語対応、などが目玉機能となっています。
以下のURLからダウンロードが可能となっております。
Omni
CSVやXLSXのアップロード及びデータの手動入力によるソーステーブル対応などの新機能がリリース
OmniのChangeLogが更新され、CSVやXLSXのアップロード及びデータの手動入力によるソーステーブル対応などの新機能がリリースされました。
他の新機能としては、下図のようにIDEからdbtのModelが正常かどうかを確認できる機能も気になりました。(画像はChangeLogより引用)
Data Catalog
Atlan
プライベートネットワークからAtlanにメタデータを送信するためのエージェントを発表
Atlanが新機能として、プライベートネットワークからAtlanにメタデータを送信するためのエージェントを発表しました。これにより、プライベートネットワークにあるDBに対してSaaSであるAtlanからのインバウンド接続が不要となり、プライベートネットワークからAtlanへのアウトバウンドの接続だけを許可すれば良くなります。
現在は、Oracle、MS SQL Server、PostgreSQL、Salesforceに対応しており、今後も多くのコネクタをサポート予定とのことです。
Data Activation (Reverse ETL)
Census
無料でAI Column機能が利用できる「AI Sheets」をリリース
CensusがCensus内の機能とは別で、自然言語でリクエストした内容をカラムとして追加できる「AI Sheets」をリリースしました。
利用する際は以下のURLから利用可能です。1000行までのCSVをアップロードして、自然言語でリクエストして処理したカラムを追加することが可能です。