[2024年12月18日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
A decade of data evolution and 2025 predictions
dbt Labs社の公式ブログでCEOであるTristan氏より、これまでの10年間のデータの進化と、2025年に予想されることをまとめた記事が出ていました。
まず、2024年に起きたことを下記のように述べています。
- マクロ経済は安定し、予測されていた景気後退は起こらなかった
- 2024年12月時点、IcebergがOTF(Open Table Format)では勝利している
- AIは逆風から追い風へ。各企業が機能開発を進めてAIをデータ利用者の手に届けられるようになってきた
- 統合が加速している。機能面で見ても、Observability・Lineage・Catalogでの衝突が起きている
- Snowflake、Databricks、TableauがSemantic Layerを導入
2025年に起きることについて、下記のように予想しています。
- Icebergを始めとしたOTFは2024年は普及していなかったが、2025年は普及し始めていく
- utility computeの台頭(全てクラウドDWHの基盤のコンピュートを使うのではなく、各ワークフローに特化した専用のエンジンを用いる考え)
- コンピューティング環境が多様化することに伴い、それを統一化するレイヤーが出てくる
- 各ツールや機能の統合が加速する
The State of Data Engineering in 2024: Key Insights and Trends
Data Engineering Weeklyにて、2024年のデータエンジニアリングのトレンドと洞察をまとめた記事が出ていました。
主に以下の内容について言及しています。
- 生成AIを用いた、自然言語によるインターフェースやデータの自動分類
- データレイク関連の技術の発展と競争
- S3 Tables
- Delta Lake・Apache Hudi・Apache Iceberg
- Unity Catalog・Apache Polaris
- ベクトル検索と非構造化データ処理
- データ品質とガバナンスの進化
- コスト最適化とパフォーマンスチューニング
primeNumber社主催のイベント「01(zeroONE) 2024」が開催
2024年12月10日に、primeNumber社主催のイベント「01(zeroONE) 2024」が開催されました。
このイベントの中でData Engineering Study #27も初のオフライン開催の形式で行われ、その中で私は「クラメソさがら氏が語る!2024年のModern Data Stackを振り返ろう~分野別の目玉アップデート情報まとめ~」というセッションタイトルで登壇をしてきました。
登壇資料などを下記の記事でまとめていますので、ぜひご覧ください!
技術ブログに関するAdvent Calendarが開催中
毎年12月恒例ではありますが、技術ブログに関するAdvent Calendarが開催中です。
私は主に以下のAdvent Calendarをチェックしております、有益な記事ばかりで本当にありがたいです…
Data Extract/Load
Omnata
OmnataがAWS PrivatelinkとAzure Private Linkに対応
SnowflakeのNative AppsとしてインストールできるOmnataですが、AWS PrivatelinkとAzure Private Linkに対応しました。
これでSnowflakeからAWSやAzure内の閉じたネットワーク内のRDB等に繋いでデータの抽出・ロードがしやすくなりそうです!
Data Warehouse/Data Lakehouse
Snowflake
Snowflake Cortexを用いたテーブル・ビュー・カラムのDescriptionの自動生成機能が一般提供
Snowflake Cortexを用いたテーブル・ビュー・カラムのDescriptionの自動生成機能が一般提供となりました。
この機能はリリースノートとドキュメントが出る前にリリースされていたため、私も試してブログにしています。併せて参考になると嬉しいです。
Dynamic Tablesを用いたSCD Type2の実装
Data Modeling with Snowflakeの著者であるSerge氏より、Dynamic Tablesを用いたSCD Type2の実装方法をまとめて記事が出ていました。
差分の検知はシステム用のカラムを除いた全カラムの値を用いたHash Diff列を作成して検知しているようです。
Snowflakeのアラート機能を用いたタスクやSnowpipeのエラー発生時の通知方法
Snowflakeのアラート機能を用いたタスクやSnowpipeのエラー発生時の通知方法をまとめた記事が出ていました。
terraform-provider-snowflakeのv1.0.0がリリース
terraform-provider-snowflakeのv1.0.0がリリースしました!待望されていた方も多いと思います。
併せてロードマップも更新されていました。直近ではプレビューのリソースの安定化に重点を置くと記載されています。(Function、Procedure、テーブルと記載あり)
Databricks
Hive metastore federationを発表 ※パブリックプレビュー
DatabricksのUnity Catalogの新機能として、Hive metastore federationが発表されました。(2024年12月18日時点ではパブリックプレビュー)
Unity CatalogからHive metastoreやAWS Glue catalogsに直接接続できるようになる機能で、手動によるメタデータのマイグレーションは不要になることがメリットとして挙げられます。
Data Transform
dbt
dbt-core v1.9が正式にリリース
dbt-core v1.9が正式にリリースされました。
どのようなアップデートがあったかは下記の記事に掲載されています。
上述の記事でも挙げられている「Microbatch incremental models」と「snapshotsのyaml定義」については私も一度試してブログにしていますので参考になると嬉しいです。
v1.9へのアップグレードガイドはこちらになります。
dbtのテストをどこでどのように実装すべきかをまとめた記事
dbtテストについて、どのレイヤー(Source、Staging、Intermediate、Mart)でどのテストを実装するかまとめた記事が出ていました。
また、先月は同じ著者の方から、データ・ビジネス・統計、どの面に着目したときにどのようなテストを実装するかまとめた記事も出ていました。
Business Intelligence
Looker
BigQueryへのOAuth認証のデフォルト権限が読み取り専用に変更となります
Lookerのリリースノートにて、BigQueryへのOAuth認証のデフォルト権限が読み取り専用に変更となる旨が記述されていました。
下記のように記述がありますので、OAuth認証でLookerからBigQueryに接続している方はご注意ください。
2025 年 3 月 1 日、Looker は、読み取りおよび書き込みスコープを持つすべてのユーザーを、対応するすべての BigQuery 接続からログアウトします。これにより、これらの接続に依存するスケジュールはすべて失敗します。スケジュールの配信が中断されないようにするには、これらの各ユーザーが OAuth 接続認証情報を再認証する必要があります。
詳細は下記のドキュメントもご覧ください。
Lightdash
Metricsをベースに分析できる「Spotlight」をリリース
Lightdashで管理されているMetricsをベースに分析が出来る「Spotlight」をリリースしました。
分析したいMetricsを選択して、そこからそのMetricsに関して時系列で分析したり前期比を見たり、ということが出来る機能のようです。(Steepに似たUIだなと感じました。)
Data Catalog
Secoda
Secodaの2024年のアップデートまとめ記事
Secodaの公式ブログより、Secodaの2024年のアップデート内容をまとめた記事が出ていました。
AI関係、AutomationsによるタグやDescriptionの自動入力、データ品質のモニタリング、Fivetranやdbtなどのワークフローのモニタリング、といった機能が追加されたようです。
OpenMetadata
OpenMetadataのv1.6.1がリリース
OpenMetadataの最新バージョンとしてv1.6.1がリリースされました。
OSS版とSaaS版それぞれのアップデートについては、下記の動画がわかりやすくまとまっています。特にSaaS版のER図はいいですね…!
- OSS版のアップデート
- SaaS版のみのアップデート(ER図などあり)
Data Activation (Reverse ETL)
Hightouch
Hightouchの2024年振り返り記事
Hightouchの公式ブログより、2024年の振り返り記事が出ていました。
HightouchでSyncしたレコード数について、2023年は2850億行だったのに対し、2024年は2兆行のレコードSyncしたようです…伸び方がすごいですね!
Data Quality・Data Observability
Elementary
Atlanとの統合機能を発表
ElementaryがAtlanとの統合機能を発表しました。
- Elementaryで収集したデータヘルススコアをAtlanで表示
- アクティブなデータ品質のインシデントをAtlanでトラッキング