[2024年10月30日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Snowflakeがまとめた「Modern Marketing Data Stack 2025」のレポートが公開
Snowflakeが1年に1度リリースしている、「Modern Marketing Data Stack 2025」のレポートが公開されました。
Snowflakeのアクティブな顧客が使用しているマーケティングテクノロジーをベースに評価しているため、Snowflakeの顧客がどのようなサービスを組み合わせてMarketing Data Stackを構築しているかがわかり参考になると思います。
Harness社のdlt + SQLMeshを用いたData Stack
dltHub社のブログにおいて、ソフトウェア配信プラットフォームを提供するHarness社のdlt + SQLMeshを用いたData Stackについての説明記事が出ていました。
dbtからSQLMeshに移行したという言及もあり、興味深い内容でした。
Data Warehouse/Data Lakehouse
Snowflake
Snowflake Open Catalogが一般提供開始
今年のSummitで発表されたPolaris Catalogが「Snowflake Open Catalog」に名称変更され、一般提供となりました。(OSS版は変わらずApache Polarisです。)
これにより、Snowflakeで定義したIceberg TableをSnowflakeのウェアハウスを用いずとも参照することが可能になります。(公式のチュートリアルにある例だと、ローカルのSparkなどからIceberg Tableを参照。)
私も本機能を試してみて、下記の記事にまとめております。ぜひご覧ください。
SPCS をフル活用して Snowflake で完結するデータ基盤を作ってみた ~SWT Tokyo DATUM STUDIOブース解説~
DATUM STUDIO社の@allllllllezさんにより、SPCS(Snowpark Container Serices)を用いて、Snowflake内でdbt・Airflow・JupyterLab・MLFlowの全てを完結するアーキテクチャについて述べた記事が出ていました。
シンプルに「すごい!!」と感じた記事なので今回ご紹介させて頂きました。ランニングコストも具体的に記載があるため、参考になる方も多いと思います。
Snowflake Trailに関する情報まとめ記事
Mediumにおいて、Snowflake Trailに関するドキュメントや使い方の例などをまとめた記事が出ていました。下記の内容について言及があります。
- Query HistoryからQuery TelemetryというタブでSnowparkストアドプロシージャの処理の内訳を確認する
- Snowfightの新しい画面である「Traces & Logs」からイベントレーブル内のログメッセージを表示・分析
- イベントテーブルをObserve・Datadog・Grafanaと連携させてログデータのモニタリング
BigQuery
Geminiを用いたデータ加工が行えるBigQuery data preparationがプレビュー
Geminiから提案を受けながらデータ加工が行えるBigQuery data preparationがプレビューとなりました。
プレビュー期間中は追加料金なしで利用できるとのことですが、一般提供後の利用費用はGemini in BigQueryに含まれるとのことです。Gemini in BigQueryの料金体系については下記の記事も参考になると思いますので、ぜひご覧ください。
BigQueryの画面からAirflow DAGを操作する機能がプレビュー
Cloud Composer 3限定の機能ですが、BigQueryの画面からAirflow DAGを操作する機能がプレビューとなりました。
Databricks
Unity CatalogからMicrosoft Power BIにテーブル間のリレーションシップの定義込でデータセットを公開できる機能がリリース
Unity CatalogからMicrosoft Power BIにテーブル間のリレーションシップの定義込でデータセットを公開できる機能がリリースされました。
下記のブログに掲載されているGifを見ると、どのような流れでUnity CatalogからMicrosoft Power BIにデータセットを公開できるかがわかり、面白いと思います。
MotherDuck/DuckDB
DuckDBを使用してPostgreSQL上のデータをクエリできる拡張機能「pg_duckdb」をBeta版としてリリース
MotherDuck社のブログより、DuckDBを使用してPostgreSQL上のデータをクエリできる拡張機能「pg_duckdb」をBeta版としてリリースしたと発表がありました。
「こういう形のHTAPのアプローチがあるのか…!」と個人的にはかなり衝撃を受けました。これまでのHTAPのアプローチは「新しいプロダクトに移行する」「新機能を用いたテーブルを用いる」とかで準備が必要なものが多かったのですが、既存のPostgreSQLを用いながらDuckDBを入れるだけでOLAPのワークロードに対応できるなら素晴らしいですね。
Data Transform
dbt
BigQueryのコンピュートとストレージをモニタリングするためのデータを加工する「dbt-bigquery-monitoring」パッケージ
dbt_bigquery_monitoringという、BigQueryのコンピュートとストレージをモニタリングするためのデータを加工するModelをまとめたパッケージがリリースされました。
こちらの作者からもMediumでどんなパッケージを開発したのか言及されています。現在はまだver0.10.3ですが、今後もReservation monitoringなどのModelを提供予定とのことです。
Dataform
hiracky16さんにより開発されたdataform-osmosis
@hiracky16さんにより、SQLXファイルにBigQueryのカラム情報を自動的に追加したり、参照元のテーブルから同じカラム名の説明を継承できるCLIツールとしてdataform-osmosisがリリースされました。
以下の記事で使い方などまとめられています。下記は記事からの引用ですが、マインドセットが素晴らしすぎますね…!
Dataform のお世話になっている自分が、何か恩返しとして貢献できないかと考え、Dataform のコミュニティに役立つこのツールを公開することにしました。
Notebooks
Hex
新しいUIである「Explore」、dbt Semantic LayerとLookerとの連携機能を発表
Hexが新しいUIである「Explore」と、dbt Semantic LayerとLookerとの連携機能を発表しました。
HexはNotebook形式で分析を行い共有出来るサービスですが、今回改めてGUIベースで探索できる機能を「Explore」と名付けて発表しています。(スプレッドシートライクな操作など、これまで発表していた機能も含めて改めてExploreに名称変更した、という印象です。)
また、dbt Semantic Layer(MetricFlow)とLookerとの連携機能も発表しています。現在は顧客向けのプライベートプレビュー機能として提供されています。
Business Intelligence
Steep
Slack配信機能をリリース
Steepが新機能として、SlackのチャンネルにレポートのPDFを配信する機能をリリースしました。
Data Catalog
Secoda
Hexとの連携機能を発表しました
SecodaがHexと連携できるようになり、Hexプロジェクトに関するメタデータを取るだけでなく、Hexプロジェクトまでのデータリネージを見ることも可能になります。
Data Quality・Data Observability
Monte Carlo
Tales from the Pipeline: 4 Data Horror Stories To Keep You Up at Night
Monte Carloより、データパイプラインに関するホラーな話?を4つまとめた記事が出ていました。読み物として面白かったですw(現実で起きたら肝が冷えますが…)