[2024年12月18日号]個人的に気になったModern Data Stack情報まとめ

[2024年12月18日号]個人的に気になったModern Data Stack情報まとめ

Clock Icon2024.12.18

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

A decade of data evolution and 2025 predictions

dbt Labs社の公式ブログでCEOであるTristan氏より、これまでの10年間のデータの進化と、2025年に予想されることをまとめた記事が出ていました。

https://www.getdbt.com/blog/2025-data-predictions

まず、2024年に起きたことを下記のように述べています。

  • マクロ経済は安定し、予測されていた景気後退は起こらなかった
  • 2024年12月時点、IcebergがOTF(Open Table Format)では勝利している
  • AIは逆風から追い風へ。各企業が機能開発を進めてAIをデータ利用者の手に届けられるようになってきた
  • 統合が加速している。機能面で見ても、Observability・Lineage・Catalogでの衝突が起きている
  • Snowflake、Databricks、TableauがSemantic Layerを導入

2025年に起きることについて、下記のように予想しています。

  • Icebergを始めとしたOTFは2024年は普及していなかったが、2025年は普及し始めていく
  • utility computeの台頭(全てクラウドDWHの基盤のコンピュートを使うのではなく、各ワークフローに特化した専用のエンジンを用いる考え)
  • コンピューティング環境が多様化することに伴い、それを統一化するレイヤーが出てくる
  • 各ツールや機能の統合が加速する

Data Engineering Weeklyにて、2024年のデータエンジニアリングのトレンドと洞察をまとめた記事が出ていました。

https://www.dataengineeringweekly.com/p/the-state-of-data-engineering-in

主に以下の内容について言及しています。

  • 生成AIを用いた、自然言語によるインターフェースやデータの自動分類
  • データレイク関連の技術の発展と競争
    • S3 Tables
    • Delta Lake・Apache Hudi・Apache Iceberg
    • Unity Catalog・Apache Polaris
  • ベクトル検索と非構造化データ処理
  • データ品質とガバナンスの進化
  • コスト最適化とパフォーマンスチューニング

primeNumber社主催のイベント「01(zeroONE) 2024」が開催

2024年12月10日に、primeNumber社主催のイベント「01(zeroONE) 2024」が開催されました。

https://primenumber.com/01/2024

このイベントの中でData Engineering Study #27も初のオフライン開催の形式で行われ、その中で私は「クラメソさがら氏が語る!2024年のModern Data Stackを振り返ろう~分野別の目玉アップデート情報まとめ~」というセッションタイトルで登壇をしてきました。

登壇資料などを下記の記事でまとめていますので、ぜひご覧ください!

https://dev.classmethod.jp/articles/data-engineering-study-looking-back-2024-modern-data-stack/

技術ブログに関するAdvent Calendarが開催中

毎年12月恒例ではありますが、技術ブログに関するAdvent Calendarが開催中です。

私は主に以下のAdvent Calendarをチェックしております、有益な記事ばかりで本当にありがたいです…

https://qiita.com/advent-calendar/2024/dbt

https://qiita.com/advent-calendar/2024/snowflake

https://qiita.com/advent-calendar/2024/bigquery

https://qiita.com/advent-calendar/2024/databricks

https://qiita.com/advent-calendar/2024/looker

Data Extract/Load

Omnata

OmnataがAWS PrivatelinkとAzure Private Linkに対応

SnowflakeのNative AppsとしてインストールできるOmnataですが、AWS PrivatelinkとAzure Private Linkに対応しました。

これでSnowflakeからAWSやAzure内の閉じたネットワーク内のRDB等に繋いでデータの抽出・ロードがしやすくなりそうです!

https://omnata.com/blog-detail/expanding-database-connectivity-options-from-snowflake-with-omnata

Data Warehouse/Data Lakehouse

Snowflake

Snowflake Cortexを用いたテーブル・ビュー・カラムのDescriptionの自動生成機能が一般提供

Snowflake Cortexを用いたテーブル・ビュー・カラムのDescriptionの自動生成機能が一般提供となりました。

https://docs.snowflake.com/en/release-notes/2024/other/2024-12-05-cortex-descriptions

https://docs.snowflake.com/en/user-guide/ui-snowsight-cortex-descriptions

この機能はリリースノートとドキュメントが出る前にリリースされていたため、私も試してブログにしています。併せて参考になると嬉しいです。

https://dev.classmethod.jp/articles/snowsight-description-auto-generation/

Dynamic Tablesを用いたSCD Type2の実装

Data Modeling with Snowflakeの著者であるSerge氏より、Dynamic Tablesを用いたSCD Type2の実装方法をまとめて記事が出ていました。

差分の検知はシステム用のカラムを除いた全カラムの値を用いたHash Diff列を作成して検知しているようです。

https://medium.com/snowflake/type-2-dimensions-using-snowflake-dynamic-tables-methods-and-performance-testing-for-all-use-4ddce6ca6464

Snowflakeのアラート機能を用いたタスクやSnowpipeのエラー発生時の通知方法

Snowflakeのアラート機能を用いたタスクやSnowpipeのエラー発生時の通知方法をまとめた記事が出ていました。

https://medium.com/snowflake/introduction-to-snowflakes-data-pipeline-alerts-notifications-9beac8d127cc

terraform-provider-snowflakeのv1.0.0がリリース

terraform-provider-snowflakeのv1.0.0がリリースしました!待望されていた方も多いと思います。

https://github.com/Snowflake-Labs/terraform-provider-snowflake/releases

併せてロードマップも更新されていました。直近ではプレビューのリソースの安定化に重点を置くと記載されています。(Function、Procedure、テーブルと記載あり)

https://github.com/Snowflake-Labs/terraform-provider-snowflake/blob/main/ROADMAP.md

Databricks

Hive metastore federationを発表 ※パブリックプレビュー

DatabricksのUnity Catalogの新機能として、Hive metastore federationが発表されました。(2024年12月18日時点ではパブリックプレビュー)

Unity CatalogからHive metastoreやAWS Glue catalogsに直接接続できるようになる機能で、手動によるメタデータのマイグレーションは不要になることがメリットとして挙げられます。

https://www.databricks.com/blog/announcing-public-preview-hive-metastore-and-aws-glue-federation-unity-catalog

Data Transform

dbt

dbt-core v1.9が正式にリリース

dbt-core v1.9が正式にリリースされました。

https://github.com/dbt-labs/dbt-core/releases/tag/v1.9.0

どのようなアップデートがあったかは下記の記事に掲載されています。

https://www.getdbt.com/blog/dbt-core-v1-9-is-ga

上述の記事でも挙げられている「Microbatch incremental models」と「snapshotsのyaml定義」については私も一度試してブログにしていますので参考になると嬉しいです。

https://dev.classmethod.jp/articles/dbt-incremental-model-microbatch-strategy/

https://dev.classmethod.jp/articles/dbt-snapshots-with-yaml/

v1.9へのアップグレードガイドはこちらになります。

https://docs.getdbt.com/docs/dbt-versions/core-upgrade/upgrading-to-v1.9

dbtのテストをどこでどのように実装すべきかをまとめた記事

dbtテストについて、どのレイヤー(Source、Staging、Intermediate、Mart)でどのテストを実装するかまとめた記事が出ていました。

https://docs.getdbt.com/blog/test-smarter-where-tests-should-go

また、先月は同じ著者の方から、データ・ビジネス・統計、どの面に着目したときにどのようなテストを実装するかまとめた記事も出ていました。

https://docs.getdbt.com/blog/test-smarter-not-harder

Business Intelligence

Looker

BigQueryへのOAuth認証のデフォルト権限が読み取り専用に変更となります

Lookerのリリースノートにて、BigQueryへのOAuth認証のデフォルト権限が読み取り専用に変更となる旨が記述されていました。

https://cloud.google.com/looker/docs/release-notes#December_06_2024

下記のように記述がありますので、OAuth認証でLookerからBigQueryに接続している方はご注意ください。

2025 年 3 月 1 日、Looker は、読み取りおよび書き込みスコープを持つすべてのユーザーを、対応するすべての BigQuery 接続からログアウトします。これにより、これらの接続に依存するスケジュールはすべて失敗します。スケジュールの配信が中断されないようにするには、これらの各ユーザーが OAuth 接続認証情報を再認証する必要があります。

詳細は下記のドキュメントもご覧ください。

https://cloud.google.com/looker/docs/best-practices/oauth-read-only

Lightdash

Metricsをベースに分析できる「Spotlight」をリリース

Lightdashで管理されているMetricsをベースに分析が出来る「Spotlight」をリリースしました。

分析したいMetricsを選択して、そこからそのMetricsに関して時系列で分析したり前期比を見たり、ということが出来る機能のようです。(Steepに似たUIだなと感じました。)

https://www.lightdash.com/blogpost/introducing-spotlight-metrics-first-bi

Data Catalog

Secoda

Secodaの2024年のアップデートまとめ記事

Secodaの公式ブログより、Secodaの2024年のアップデート内容をまとめた記事が出ていました。

AI関係、AutomationsによるタグやDescriptionの自動入力、データ品質のモニタリング、Fivetranやdbtなどのワークフローのモニタリング、といった機能が追加されたようです。

https://www.secoda.co/blog/top-secoda-features-of-2024

OpenMetadata

OpenMetadataのv1.6.1がリリース

OpenMetadataの最新バージョンとしてv1.6.1がリリースされました。

https://docs.open-metadata.org/latest/releases/latest-release

OSS版とSaaS版それぞれのアップデートについては、下記の動画がわかりやすくまとまっています。特にSaaS版のER図はいいですね…!

  • OSS版のアップデート

https://www.youtube.com/watch?v=VsbmImX4x3A

  • SaaS版のみのアップデート(ER図などあり)

https://www.youtube.com/watch?v=yivPjt7W_Ew

Data Activation (Reverse ETL)

Hightouch

Hightouchの2024年振り返り記事

Hightouchの公式ブログより、2024年の振り返り記事が出ていました。

HightouchでSyncしたレコード数について、2023年は2850億行だったのに対し、2024年は2兆行のレコードSyncしたようです…伸び方がすごいですね!

https://hightouch.com/blog/rewind-2024-in-review

Data Quality・Data Observability

Elementary

Atlanとの統合機能を発表

ElementaryがAtlanとの統合機能を発表しました。

  • Elementaryで収集したデータヘルススコアをAtlanで表示
  • アクティブなデータ品質のインシデントをAtlanでトラッキング

https://www.elementary-data.com/post/elementary-atlan-integration

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.