[2025年2月5日号]個人的に気になったModern Data Stack情報まとめ

[2025年2月5日号]個人的に気になったModern Data Stack情報まとめ

Clock Icon2025.02.05

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Envisioning LakeDB: The Next Evolution of the Lakehouse Architecture

Data Engineering Weeklyにおいて、Lakehouseの次の進化として「LakeDB」について言及した記事が出ていました。

Apache Iceberg、Apache Hudi、Delta Lakeという現在の主要なテーブルフォーマットの話に留まらず、Googleが研究開発している「Napa」についての解説もあります。(Napaは私も初耳でした…)

https://www.dataengineeringweekly.com/p/envisioning-lakedb-the-next-evolution

The Data Engineering Toolkit: Essential Tools for Your Machine

MotherDuck社のブログにおいて、データエンジニアがよく使うCLIの操作やツールをまとめた記事を出していました。

体系的にまとめられていますので、今後データエンジニアのスキルを高めていきたい方にも参考になると思います。

https://motherduck.com/blog/data-engineering-toolkit-essential-tools/

Data Warehouse/Data Lakehouse

Snowflake

SnowflakeへのマイグレーションツールであるSnowConvertが無料で使えるように

Oracle、SQL Server、Teradata からSnowflakeのマイグレーションに利用できるSnowConvertが無料で使えるようになりました!

さらに、RedshiftからSnowflakeの移行もプライベートプレビューで提供開始されたようです。下記リンク先からプライベートプレビューの利用申請も可能です。

https://www.snowflake.com/en/blog/free-snowconvert-redshift-migrations/

Icebergのデータロードに関するプラクティスまとめ記事

Snowflakeでは現在Iceberg Tableとしてロードする際にFULL_INGESTADD_FILES_COPY というオプションが提供されていますが、これら2つのオプションの違いと細かな挙動についてまとまった記事が出ていました。

https://medium.com/snowflake/definitive-guide-for-data-ingestion-to-apache-iceberg-with-snowflake-part-1-e0a053ecb1d

Snowflake IcebergテーブルへのDuckDBからのクエリ実行 + Iceberg構成ファイルの確認

abe_masanoriさんにより、Snowflakeで定義したIcebergテーブルへDuckDBからクエリを実行する方法と、Icebergテーブルのレコードを更新したときにメタデータファイルにどのような変化があるかをまとめた記事が出ていました。

現状DuckDBがIcebergファイルを直接参照する方法のみ提供しているため、Open Catalogなどのカタログ経由で参照できる様になることが楽しみですね!

https://qiita.com/abe_masanori/items/19701469e0ae4390109f

BigQuery

BigQuery metastoreがパブリックプレビュー

Apache Icebergのメタデータを管理するサービスとして、BigQuery metastoreがパブリックプレビューとなりました。

これにより、「外部のSparkでテーブルを作成し、BigQueryで分析する」というデータレイクハウス的な活用がGoogle Cloudでも出来るようになりました!

https://cloud.google.com/blog/products/data-analytics/introducing-bigquery-metastore-fully-managed-metadata-service/?hl=en

https://cloud.google.com/bigquery/docs/about-bqms

Databricks

「赤煉瓦倉庫勉強会第2回:レイクハウスって結局何なのっていいました?じゃあ真のレイクハウスをみせてやりますよ!」が開催

赤煉瓦倉庫勉強会第2回として「レイクハウスって結局何なのっていいました?じゃあ真のレイクハウスをみせてやりますよ!」が2025年1月27日に開催されました。

https://redbrick.connpass.com/event/341139/

「レイクハウス」自体に関する解説セッションもあり、私自身とても参考になりました。(資料は下記となります。)

https://speakerdeck.com/akuwano/reikuhausutohanantatutanoka

DatabricksからS3 Tablesで定義されたIceberg tablesを参照する方法

AWSの公式ブログより、DatabricksからS3 Tablesで定義されたIceberg tablesを参照する方法をまとめた記事が出ていました。

AWSにおけるIceberg活用においてS3 Tablesは今後間違いなく重要立ち位置となると思いますので、こういった実際の活用イメージが着く記事はとてもありがたいです。

https://aws.amazon.com/jp/blogs/big-data/access-amazon-s3-iceberg-tables-from-databricks-using-aws-glue-iceberg-rest-catalog-in-amazon-sagemaker-lakehouse/

Data Transform

dbt

SDFを用いたカラム伝搬についての解説記事

myshmehさんにより、dbt-osmosisとSDF、それぞれのカラム情報の伝搬についてどのような違いがあるか、実例を交えてまとめた記事が出ていました。

dbtにSDFのカラム伝搬機能が実装されるのがとても待ち遠しくなる記事です!

https://stable.co.jp/blog/dbt-osmosis-vs-sdf

SQL Comprehensionに関する解説記事

dbt Labs社のDeveloper Blogにおいて、「The Three Levels of SQL Comprehension: What they are and why you need to know about them」というタイトルで、SQLの内容を理解する3つのステップについて言及した記事が出ていました。

dbt Labs社がSDF Labs社を買収したことで、SDFが提供するSQL Compehension機能がどのようにdbtに組み込まれていくのか楽しみです!

https://docs.getdbt.com/blog/the-levels-of-sql-comprehension

Dataform

2025年にDataformを使うことへの葛藤などなど

snhrytさんにより、「2025年にDataformを使うことへの葛藤などなど」というタイトルでDataformを4年ほど使用されての所感をまとめた記事が出ていました。

実経験に伴うDataformの使用感がわかり、大変参考になる記事です。(ありがとうございます!)

https://zenn.dev/mybest_dev/articles/9a1d3312213dca

Business Intelligence

Tableau

2025.1がまもなくリリース予定

TableauのComing Soonのページが更新され、2025.1に関する最新情報が公開されました。

Tableau Pulseのアップデートが多く感じますが、Tableau Server/Cloudで削除してしまったコンテンツの復元など、運用上非常にありがたい機能も追加されています。

https://www.tableau.com/products/coming-soon

DuckDBを使ってS3にあるデータをTableauでサクっと分析する

rtamaさんにより、Tableau DesktopからDuckDB経由でS3のデータを分析する方法についてまとめた記事を出していました。

この記事に書いてあるS3に対するViewをDuckDBで定義する方法により、ローカルPCにデータを物理保存せずとも、S3上のデータを分析できるのが熱いです!!

https://zenn.dev/cavernaria/articles/6a6fdc85cb53ad?trk=feed_main-feed-card_feed-article-content

Data Quality・Data Observability

Monte Carlo

エージェントアプリがSnowflake Native Appsとして提供開始(プレビュー)

SnowflakeのMarketplace経由で、Monte CarloのエージェントアプリがSnowflake Native Appsとして提供開始となりました。(2025年2月5日時点ではプレビュー)

これを用いることで、別途AWSなどでインスタンスを用意することなく、SnowflakeからMonte Carloへのデータ転送をセキュアに行うことが可能となります。

https://docs.getmontecarlo.com/changelog/snowflake-native-app

https://docs.getmontecarlo.com/docs/sna-agent-deployment

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.