[2025年2月5日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Envisioning LakeDB: The Next Evolution of the Lakehouse Architecture
Data Engineering Weeklyにおいて、Lakehouseの次の進化として「LakeDB」について言及した記事が出ていました。
Apache Iceberg、Apache Hudi、Delta Lakeという現在の主要なテーブルフォーマットの話に留まらず、Googleが研究開発している「Napa」についての解説もあります。(Napaは私も初耳でした…)
The Data Engineering Toolkit: Essential Tools for Your Machine
MotherDuck社のブログにおいて、データエンジニアがよく使うCLIの操作やツールをまとめた記事を出していました。
体系的にまとめられていますので、今後データエンジニアのスキルを高めていきたい方にも参考になると思います。
Data Warehouse/Data Lakehouse
Snowflake
SnowflakeへのマイグレーションツールであるSnowConvertが無料で使えるように
Oracle、SQL Server、Teradata からSnowflakeのマイグレーションに利用できるSnowConvertが無料で使えるようになりました!
さらに、RedshiftからSnowflakeの移行もプライベートプレビューで提供開始されたようです。下記リンク先からプライベートプレビューの利用申請も可能です。
Icebergのデータロードに関するプラクティスまとめ記事
Snowflakeでは現在Iceberg Tableとしてロードする際にFULL_INGEST
とADD_FILES_COPY
というオプションが提供されていますが、これら2つのオプションの違いと細かな挙動についてまとまった記事が出ていました。
Snowflake IcebergテーブルへのDuckDBからのクエリ実行 + Iceberg構成ファイルの確認
abe_masanoriさんにより、Snowflakeで定義したIcebergテーブルへDuckDBからクエリを実行する方法と、Icebergテーブルのレコードを更新したときにメタデータファイルにどのような変化があるかをまとめた記事が出ていました。
現状DuckDBがIcebergファイルを直接参照する方法のみ提供しているため、Open Catalogなどのカタログ経由で参照できる様になることが楽しみですね!
BigQuery
BigQuery metastoreがパブリックプレビュー
Apache Icebergのメタデータを管理するサービスとして、BigQuery metastoreがパブリックプレビューとなりました。
これにより、「外部のSparkでテーブルを作成し、BigQueryで分析する」というデータレイクハウス的な活用がGoogle Cloudでも出来るようになりました!
Databricks
「赤煉瓦倉庫勉強会第2回:レイクハウスって結局何なのっていいました?じゃあ真のレイクハウスをみせてやりますよ!」が開催
赤煉瓦倉庫勉強会第2回として「レイクハウスって結局何なのっていいました?じゃあ真のレイクハウスをみせてやりますよ!」が2025年1月27日に開催されました。
「レイクハウス」自体に関する解説セッションもあり、私自身とても参考になりました。(資料は下記となります。)
DatabricksからS3 Tablesで定義されたIceberg tablesを参照する方法
AWSの公式ブログより、DatabricksからS3 Tablesで定義されたIceberg tablesを参照する方法をまとめた記事が出ていました。
AWSにおけるIceberg活用においてS3 Tablesは今後間違いなく重要立ち位置となると思いますので、こういった実際の活用イメージが着く記事はとてもありがたいです。
Data Transform
dbt
SDFを用いたカラム伝搬についての解説記事
myshmehさんにより、dbt-osmosisとSDF、それぞれのカラム情報の伝搬についてどのような違いがあるか、実例を交えてまとめた記事が出ていました。
dbtにSDFのカラム伝搬機能が実装されるのがとても待ち遠しくなる記事です!
SQL Comprehensionに関する解説記事
dbt Labs社のDeveloper Blogにおいて、「The Three Levels of SQL Comprehension: What they are and why you need to know about them」というタイトルで、SQLの内容を理解する3つのステップについて言及した記事が出ていました。
dbt Labs社がSDF Labs社を買収したことで、SDFが提供するSQL Compehension機能がどのようにdbtに組み込まれていくのか楽しみです!
Dataform
2025年にDataformを使うことへの葛藤などなど
snhrytさんにより、「2025年にDataformを使うことへの葛藤などなど」というタイトルでDataformを4年ほど使用されての所感をまとめた記事が出ていました。
実経験に伴うDataformの使用感がわかり、大変参考になる記事です。(ありがとうございます!)
Business Intelligence
Tableau
2025.1がまもなくリリース予定
TableauのComing Soonのページが更新され、2025.1に関する最新情報が公開されました。
Tableau Pulseのアップデートが多く感じますが、Tableau Server/Cloudで削除してしまったコンテンツの復元など、運用上非常にありがたい機能も追加されています。
DuckDBを使ってS3にあるデータをTableauでサクっと分析する
rtamaさんにより、Tableau DesktopからDuckDB経由でS3のデータを分析する方法についてまとめた記事を出していました。
この記事に書いてあるS3に対するViewをDuckDBで定義する方法により、ローカルPCにデータを物理保存せずとも、S3上のデータを分析できるのが熱いです!!
Data Quality・Data Observability
Monte Carlo
エージェントアプリがSnowflake Native Appsとして提供開始(プレビュー)
SnowflakeのMarketplace経由で、Monte CarloのエージェントアプリがSnowflake Native Appsとして提供開始となりました。(2025年2月5日時点ではプレビュー)
これを用いることで、別途AWSなどでインスタンスを用意することなく、SnowflakeからMonte Carloへのデータ転送をセキュアに行うことが可能となります。