[2025年2月19日号]個人的に気になったModern Data Stack情報まとめ

[2025年2月19日号]個人的に気になったModern Data Stack情報まとめ

Clock Icon2025.02.19

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Data Products: A Case Against Medallion Architecture

Modern Data 101より、Medallion Architectureに対する批判的な意見を述べた上で、Data Products Architectureというデータアプリやユースケースからプッシュ式で対応することでよりエンドユーザーのニーズに沿った構築ができる考え方をまとめた記事が出ていました。

この記事を読んだ私の感想ですが、実際従来の3層構造(Raw/DWH/Mart等)やMedallion Architectureでもエンドユーザーのユースケースを確認した上でプロトタイプから構築していくのがベストだと思いますので、その手順さえ間違えなければ従来の3層構造(Raw/DWH/Mart等)やMedallion Architectureでも問題ないと考えております。

https://moderndata101.substack.com/p/data-products-a-case-against-medallion

The Complete Guide to Saving on ELT Bills in 2025 | Vendors Unmasked!

Orchestra社のCEOであるHugo氏により、ELT製品を列挙し価格体系やコストを抑える考えをまとめた記事が出ていました。

少し主観的な表現が強いと感じるところもありますが、現在利用できるETL/ELTツールを一通り列挙している印象があるため、参考になるところもあると思います。

https://dataopsleadership.substack.com/p/the-complete-guide-to-saving-on-elt

Data Extract/Load

Fivetran

Connector SDKが一般提供

Fivetranのコネクタをユーザー側で開発できるConnector SDKが一般提供となりました。

https://fivetran.com/docs/connectors/connector-sdk

https://pypi.org/project/fivetran-connector-sdk/1.1.2/

Airbyte

Airbyte CloudがCapacity-basedの料金プランを提供開始

Airbyte Cloudはこれまで同期したデータの容量やレコードに応じたVolume-basedの料金プランを展開していましたが、TeamプランとEnterpriseプランにおいて、必要なAirbyteのコネクタの種類やデータの更新頻度に応じて必要なワーカーノードから料金を算出するCapacity-basedの料金プランを発表しました。

https://airbyte.com/blog/introducing-capacity-based-pricing

Data Warehouse/Data Lakehouse

Snowflake

Cortex Agentsがパブリックプレビュー

Snowflakeの新機能として、Cortex Agentsがパブリックプレビューとなりました。

Cortex AgentsのAPIを介することで、非構造化データに対するCortex Searchと構造化データに対するCortex Analyst、どちらも再帰的に利用して最適な結果を返すことが出来る、という機能となっています。

https://www.snowflake.com/en/blog/ai-data-agents-snowflake-cortex/

下記のQuickstartやYouTubeも参考になると思います。

https://quickstarts.snowflake.com/guide/getting_started_with_cortex_agents/index.html?#0

https://www.youtube.com/watch?v=SDqyB-yWaAE

Snowflake CortexのCOMPLETE関数がJSONスキーマに準拠した形で出力することをサポート ※パブリックプレビュー

Snowflake CortexのCOMPLETE関数がJSONスキーマに準拠した形で出力することができるようになりました。

出力結果を他のシステムやAPIと連携させたい場合にはJSONスキーマの形式である方が都合が良いことが多いと思いますので、より便利になったのではないでしょうか。

https://docs.snowflake.com/en/release-notes/2025/other/2025-02-11-cortex-complete-structured-outputs

https://docs.snowflake.com/en/user-guide/snowflake-cortex/complete-structured-outputs

Snowpark Migration Acceleratorの新機能として、移行前後のデータの比較が行えるSnowpark Checkpointが追加 ※プレビュー

Snowpark Migration Acceleratorの新機能として、PySparkからSnowparkへの移行前後のデータの比較が行えるSnowpark Checkpointが追加されました。(2025年2月10日時点ではパブリックプレビュー)

Snowpark Migration Acceleratorによって生成されたメタデータを使いつつ、PySparkとSnowparkのコード、それぞれのDataframe同士の比較が行える仕様となっているようです。

https://medium.com/snowflake/introducing-snowpark-checkpoints-seamlessly-validate-your-apache-pyspark-to-snowpark-python-f3242b442961

BigQuery tables for Apache Icebergで定義されたテーブルをSnowflakeのIceberg Tableとしてクエリできるようにしてみた

私の記事で恐縮ですが、以前のMDSまとめでもご紹介したBigQueryで管理しているIcebergテーブルをSnowflakeのIcebergテーブルとして扱う事例のMedium記事を自分でも再現できるか実際にやってみて記事にまとめてみました。

BigQueryでのメタデータエクスポート時のエラーや、Snowflake側で最新のメタデータを取得するためのストアドプロシージャの定義など気になる点はありますが、今後のBigQuery⇛Snowflakeのパイプライン構築が抜本的に変わりそうで、とても熱い連携だと思います!

https://dev.classmethod.jp/articles/bigquery-tables-for-apache-iceberg-to-snowflake-iceberg-table/

SnowflakeからMicrosoft Teamsにアラートを送る方法

SELECT社より、SnowflakeからMicrosoft Teamsにアラートを送る方法についてまとめた記事が出ていました。

Teamsへのアラートを送る方法をまとめた記事はそう多くない印象なので、参考になります。

https://select.dev/posts/snowflake-teams-alerts

Dynamic Tableの詳解記事

こちらもSELECT社の記事ですが、SnowflakeのDynamic Tableに関する詳解記事が出ていました。

私もまだ詳しく見れていませんが、後でじっくり読ませてもらいたいと思います…!

https://select.dev/posts/snowflake-dynamic-tables

Databricks

SAP Databricksを発表

SAP社とDatabricks社が連携し、SAP Business Data Cloudの一部としてSAP Databricksを発表しました。

これにより、SAPのデータをDatabricksと双方向にデータを共有することができるようです。

https://www.databricks.com/blog/introducing-sap-databricks

MotherDuck/DuckDB

DuckDB 1.2がリリース

DuckDBの最新バージョンである1.2がリリースされました。

Primary Keyのサポート、新しいCSVパーサーにより約15%の速度向上、SELECT e1: some_long_and_winding expression,のようにエイリアスを定義できるPrefix Aliases機能、などが特に気になりました。

https://duckdb.org/2025/02/05/announcing-duckdb-120.html

https://github.com/duckdb/duckdb/releases/tag/v1.2.0

Data Transform

dbt

現地時間3月19日~20日に2025 dbt Cloud Launch Showcaseが開催

dbt Cloudの最新機能について発表されるイベントである2025 dbt Cloud Launch Showcaseが現地時間3月19日~20日に開催されます。

SDF integration、Visual Editor、dbt Core 1.10などについて発表があるようです。とても楽しみです!

https://www.getdbt.com/resources/webinars/2025-dbt-cloud-launch-showcase

Business Intelligence

Looker

Looker 25.2のリリースノートが公開

Lookerの最新バージョンである25.2のリリースノートが公開されました。

細かな機能修正が主なアップデート内容となっております。

https://cloud.google.com/looker/docs/release-notes

Data Catalog

Select Star

Select Starの最新アップデートのリリースノート

2025年2月の、Select Starの最新アップデートのリリースノートが公開されました。

個人的には、Salesforce Formula Lineageが特に気になりました。

https://docs.selectstar.com/changelog/february-6-2025-collections-slack-app-published-salesforce-formula-lineage-and-more

Data Activation (Reverse ETL)

Hightouch

Hightouchが新しく8000万USDの資金調達を実施

HightouchがSeries Cの資金調達として、新しく8000万USDの資金調達を実施したことを発表しました。

https://hightouch.com/blog/hightouch-funding-series-c

Data Quality・Data Observability

Great Expectations

2025年2月のアップデート情報まとめ記事

Great Expectationsの公式ブログより、GX CloudとGX Core(OSS版)それぞれのアップデート情報をまとめた記事が出ていました。

https://greatexpectations.io/blog/whats-new-in-gx-february-2025

目玉機能としては、「ExpectAI」という、データの特性に合わせたExpectationの定義を提案してくれる機能が挙げられます。(上記のブログより)

expectAI-screenshot

Elementary

最新バージョンの0.16.2がリリース

Elementaryの最新バージョンである0.16.2がリリースとなりました。

リネージ・レポート・アラート周りの機能強化が行われています。

https://github.com/elementary-data/elementary/releases

Data Orchestration

Dagster

最新バージョンである1.10がリリース

Dagsterの最新バージョンである1.10がリリースとなりました。

同時実行性、FivetranやAirbyteなどのELTツールとの統合、API周り、で主にアップデートが行われています。

https://dagster.io/blog/dagster-1-10-mambo-no-5

https://github.com/dagster-io/dagster/releases/tag/1.10.0

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.