[2024年10月30日号]個人的に気になったModern Data Stack情報まとめ

[2024年10月30日号]個人的に気になったModern Data Stack情報まとめ

Clock Icon2024.10.30

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Snowflakeがまとめた「Modern Marketing Data Stack 2025」のレポートが公開

Snowflakeが1年に1度リリースしている、「Modern Marketing Data Stack 2025」のレポートが公開されました。

Snowflakeのアクティブな顧客が使用しているマーケティングテクノロジーをベースに評価しているため、Snowflakeの顧客がどのようなサービスを組み合わせてMarketing Data Stackを構築しているかがわかり参考になると思います。

https://www.snowflake.com/en/blog/modern-marketing-data-stack-2025/

https://www.snowflake.com/en/the-modern-marketing-data-stack-report/

Harness社のdlt + SQLMeshを用いたData Stack

dltHub社のブログにおいて、ソフトウェア配信プラットフォームを提供するHarness社のdlt + SQLMeshを用いたData Stackについての説明記事が出ていました。

dbtからSQLMeshに移行したという言及もあり、興味深い内容でした。

https://dlthub.com/blog/harness-full

Data Warehouse/Data Lakehouse

Snowflake

Snowflake Open Catalogが一般提供開始

今年のSummitで発表されたPolaris Catalogが「Snowflake Open Catalog」に名称変更され、一般提供となりました。(OSS版は変わらずApache Polarisです。)

これにより、Snowflakeで定義したIceberg TableをSnowflakeのウェアハウスを用いずとも参照することが可能になります。(公式のチュートリアルにある例だと、ローカルのSparkなどからIceberg Tableを参照。)

https://other-docs.snowflake.com/en/opencatalog/release-notes

私も本機能を試してみて、下記の記事にまとめております。ぜひご覧ください。

https://dev.classmethod.jp/articles/snowflake-open-catalog-try-create-catalog-and-table/

SPCS をフル活用して Snowflake で完結するデータ基盤を作ってみた ~SWT Tokyo DATUM STUDIOブース解説~

DATUM STUDIO社の@allllllllezさんにより、SPCS(Snowpark Container Serices)を用いて、Snowflake内でdbt・Airflow・JupyterLab・MLFlowの全てを完結するアーキテクチャについて述べた記事が出ていました。

シンプルに「すごい!!」と感じた記事なので今回ご紹介させて頂きました。ランニングコストも具体的に記載があるため、参考になる方も多いと思います。

https://zenn.dev/datum_studio/articles/1058d49960f006

Snowflake Trailに関する情報まとめ記事

Mediumにおいて、Snowflake Trailに関するドキュメントや使い方の例などをまとめた記事が出ていました。下記の内容について言及があります。

  • Query HistoryからQuery TelemetryというタブでSnowparkストアドプロシージャの処理の内訳を確認する
  • Snowfightの新しい画面である「Traces & Logs」からイベントレーブル内のログメッセージを表示・分析
  • イベントテーブルをObserve・Datadog・Grafanaと連携させてログデータのモニタリング

https://medium.com/snowflake/new-in-snowflake-trail-enhanced-logs-tracing-and-metrics-for-snowpark-a2476198e14e

BigQuery

Geminiを用いたデータ加工が行えるBigQuery data preparationがプレビュー

Geminiから提案を受けながらデータ加工が行えるBigQuery data preparationがプレビューとなりました。

https://cloud.google.com/bigquery/docs/data-prep-introduction

プレビュー期間中は追加料金なしで利用できるとのことですが、一般提供後の利用費用はGemini in BigQueryに含まれるとのことです。Gemini in BigQueryの料金体系については下記の記事も参考になると思いますので、ぜひご覧ください。

https://dev.classmethod.jp/articles/gemini-in-bigquery-pricing/

BigQueryの画面からAirflow DAGを操作する機能がプレビュー

Cloud Composer 3限定の機能ですが、BigQueryの画面からAirflow DAGを操作する機能がプレビューとなりました。

https://cloud.google.com/bigquery/docs/orchestrate-dags

Databricks

Unity CatalogからMicrosoft Power BIにテーブル間のリレーションシップの定義込でデータセットを公開できる機能がリリース

Unity CatalogからMicrosoft Power BIにテーブル間のリレーションシップの定義込でデータセットを公開できる機能がリリースされました。

下記のブログに掲載されているGifを見ると、どのような流れでUnity CatalogからMicrosoft Power BIにデータセットを公開できるかがわかり、面白いと思います。

https://www.databricks.com/blog/announcing-general-availability-publish-microsoft-power-bi-service-unity-catalog

MotherDuck/DuckDB

DuckDBを使用してPostgreSQL上のデータをクエリできる拡張機能「pg_duckdb」をBeta版としてリリース

MotherDuck社のブログより、DuckDBを使用してPostgreSQL上のデータをクエリできる拡張機能「pg_duckdb」をBeta版としてリリースしたと発表がありました。

「こういう形のHTAPのアプローチがあるのか…!」と個人的にはかなり衝撃を受けました。これまでのHTAPのアプローチは「新しいプロダクトに移行する」「新機能を用いたテーブルを用いる」とかで準備が必要なものが多かったのですが、既存のPostgreSQLを用いながらDuckDBを入れるだけでOLAPのワークロードに対応できるなら素晴らしいですね。

https://motherduck.com/blog/pgduckdb-beta-release-duckdb-postgres/

Data Transform

dbt

BigQueryのコンピュートとストレージをモニタリングするためのデータを加工する「dbt-bigquery-monitoring」パッケージ

dbt_bigquery_monitoringという、BigQueryのコンピュートとストレージをモニタリングするためのデータを加工するModelをまとめたパッケージがリリースされました。

https://hub.getdbt.com/bqbooster/dbt_bigquery_monitoring/latest/

こちらの作者からもMediumでどんなパッケージを開発したのか言及されています。現在はまだver0.10.3ですが、今後もReservation monitoringなどのModelを提供予定とのことです。

https://medium.com/@kayrnt/dbt-bigquery-monitoring-monitoring-bigquery-compute-and-storage-with-dbt-8e05413387a1

Dataform

hiracky16さんにより開発されたdataform-osmosis

@hiracky16さんにより、SQLXファイルにBigQueryのカラム情報を自動的に追加したり、参照元のテーブルから同じカラム名の説明を継承できるCLIツールとしてdataform-osmosisがリリースされました。

https://github.com/hiracky16/dataform-osmosis

以下の記事で使い方などまとめられています。下記は記事からの引用ですが、マインドセットが素晴らしすぎますね…!

Dataform のお世話になっている自分が、何か恩返しとして貢献できないかと考え、Dataform のコミュニティに役立つこのツールを公開することにしました。

https://zenn.dev/hiracky16/articles/517eaa998e41bfe8152a

Notebooks

Hex

新しいUIである「Explore」、dbt Semantic LayerとLookerとの連携機能を発表

Hexが新しいUIである「Explore」と、dbt Semantic LayerとLookerとの連携機能を発表しました。

HexはNotebook形式で分析を行い共有出来るサービスですが、今回改めてGUIベースで探索できる機能を「Explore」と名付けて発表しています。(スプレッドシートライクな操作など、これまで発表していた機能も含めて改めてExploreに名称変更した、という印象です。)

また、dbt Semantic Layer(MetricFlow)とLookerとの連携機能も発表しています。現在は顧客向けのプライベートプレビュー機能として提供されています。

https://hex.tech/blog/introducing-explore/#🔄-preview-of-deeper-semantic-integrations-with-metricflow-and-lookml

Business Intelligence

Steep

Slack配信機能をリリース

Steepが新機能として、SlackのチャンネルにレポートのPDFを配信する機能をリリースしました。

https://steep.app/blog/october-2024

Data Catalog

Secoda

Hexとの連携機能を発表しました

SecodaがHexと連携できるようになり、Hexプロジェクトに関するメタデータを取るだけでなく、Hexプロジェクトまでのデータリネージを見ることも可能になります。

https://www.secoda.co/blog/enhancing-data-collaboration-and-lineage-with-secoda-and-hex

Data Quality・Data Observability

Monte Carlo

Tales from the Pipeline: 4 Data Horror Stories To Keep You Up at Night

Monte Carloより、データパイプラインに関するホラーな話?を4つまとめた記事が出ていました。読み物として面白かったですw(現実で起きたら肝が冷えますが…)

https://www.montecarlodata.com/blog-tales-from-the-pipeline-4-data-horror-stories-to-keep-you-up-at-night/

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.