![[2025年2月19日号]個人的に気になったModern Data Stack情報まとめ](https://images.ctfassets.net/ct0aopd36mqt/wp-thumbnail-4c47f61cc8c1b97c00c0efcc68eab01b/ebc4f0c0223a249eae2f9de257dedbcd/eyecatch_moderndatastack_1200_630.jpg)
[2025年2月19日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Data Products: A Case Against Medallion Architecture
Modern Data 101より、Medallion Architectureに対する批判的な意見を述べた上で、Data Products Architectureというデータアプリやユースケースからプッシュ式で対応することでよりエンドユーザーのニーズに沿った構築ができる考え方をまとめた記事が出ていました。
この記事を読んだ私の感想ですが、実際従来の3層構造(Raw/DWH/Mart等)やMedallion Architectureでもエンドユーザーのユースケースを確認した上でプロトタイプから構築していくのがベストだと思いますので、その手順さえ間違えなければ従来の3層構造(Raw/DWH/Mart等)やMedallion Architectureでも問題ないと考えております。
The Complete Guide to Saving on ELT Bills in 2025 | Vendors Unmasked!
Orchestra社のCEOであるHugo氏により、ELT製品を列挙し価格体系やコストを抑える考えをまとめた記事が出ていました。
少し主観的な表現が強いと感じるところもありますが、現在利用できるETL/ELTツールを一通り列挙している印象があるため、参考になるところもあると思います。
Data Extract/Load
Fivetran
Connector SDKが一般提供
Fivetranのコネクタをユーザー側で開発できるConnector SDKが一般提供となりました。
Airbyte
Airbyte CloudがCapacity-basedの料金プランを提供開始
Airbyte Cloudはこれまで同期したデータの容量やレコードに応じたVolume-basedの料金プランを展開していましたが、TeamプランとEnterpriseプランにおいて、必要なAirbyteのコネクタの種類やデータの更新頻度に応じて必要なワーカーノードから料金を算出するCapacity-basedの料金プランを発表しました。
Data Warehouse/Data Lakehouse
Snowflake
Cortex Agentsがパブリックプレビュー
Snowflakeの新機能として、Cortex Agentsがパブリックプレビューとなりました。
Cortex AgentsのAPIを介することで、非構造化データに対するCortex Searchと構造化データに対するCortex Analyst、どちらも再帰的に利用して最適な結果を返すことが出来る、という機能となっています。
下記のQuickstartやYouTubeも参考になると思います。
Snowflake CortexのCOMPLETE関数がJSONスキーマに準拠した形で出力することをサポート ※パブリックプレビュー
Snowflake CortexのCOMPLETE関数がJSONスキーマに準拠した形で出力することができるようになりました。
出力結果を他のシステムやAPIと連携させたい場合にはJSONスキーマの形式である方が都合が良いことが多いと思いますので、より便利になったのではないでしょうか。
Snowpark Migration Acceleratorの新機能として、移行前後のデータの比較が行えるSnowpark Checkpointが追加 ※プレビュー
Snowpark Migration Acceleratorの新機能として、PySparkからSnowparkへの移行前後のデータの比較が行えるSnowpark Checkpointが追加されました。(2025年2月10日時点ではパブリックプレビュー)
Snowpark Migration Acceleratorによって生成されたメタデータを使いつつ、PySparkとSnowparkのコード、それぞれのDataframe同士の比較が行える仕様となっているようです。
BigQuery tables for Apache Icebergで定義されたテーブルをSnowflakeのIceberg Tableとしてクエリできるようにしてみた
私の記事で恐縮ですが、以前のMDSまとめでもご紹介したBigQueryで管理しているIcebergテーブルをSnowflakeのIcebergテーブルとして扱う事例のMedium記事を自分でも再現できるか実際にやってみて記事にまとめてみました。
BigQueryでのメタデータエクスポート時のエラーや、Snowflake側で最新のメタデータを取得するためのストアドプロシージャの定義など気になる点はありますが、今後のBigQuery⇛Snowflakeのパイプライン構築が抜本的に変わりそうで、とても熱い連携だと思います!
SnowflakeからMicrosoft Teamsにアラートを送る方法
SELECT社より、SnowflakeからMicrosoft Teamsにアラートを送る方法についてまとめた記事が出ていました。
Teamsへのアラートを送る方法をまとめた記事はそう多くない印象なので、参考になります。
Dynamic Tableの詳解記事
こちらもSELECT社の記事ですが、SnowflakeのDynamic Tableに関する詳解記事が出ていました。
私もまだ詳しく見れていませんが、後でじっくり読ませてもらいたいと思います…!
Databricks
SAP Databricksを発表
SAP社とDatabricks社が連携し、SAP Business Data Cloudの一部としてSAP Databricksを発表しました。
これにより、SAPのデータをDatabricksと双方向にデータを共有することができるようです。
MotherDuck/DuckDB
DuckDB 1.2がリリース
DuckDBの最新バージョンである1.2がリリースされました。
Primary Keyのサポート、新しいCSVパーサーにより約15%の速度向上、SELECT e1: some_long_and_winding expression,
のようにエイリアスを定義できるPrefix Aliases機能、などが特に気になりました。
Data Transform
dbt
現地時間3月19日~20日に2025 dbt Cloud Launch Showcaseが開催
dbt Cloudの最新機能について発表されるイベントである2025 dbt Cloud Launch Showcaseが現地時間3月19日~20日に開催されます。
SDF integration、Visual Editor、dbt Core 1.10などについて発表があるようです。とても楽しみです!
Business Intelligence
Looker
Looker 25.2のリリースノートが公開
Lookerの最新バージョンである25.2のリリースノートが公開されました。
細かな機能修正が主なアップデート内容となっております。
Data Catalog
Select Star
Select Starの最新アップデートのリリースノート
2025年2月の、Select Starの最新アップデートのリリースノートが公開されました。
個人的には、Salesforce Formula Lineageが特に気になりました。
Data Activation (Reverse ETL)
Hightouch
Hightouchが新しく8000万USDの資金調達を実施
HightouchがSeries Cの資金調達として、新しく8000万USDの資金調達を実施したことを発表しました。
Data Quality・Data Observability
Great Expectations
2025年2月のアップデート情報まとめ記事
Great Expectationsの公式ブログより、GX CloudとGX Core(OSS版)それぞれのアップデート情報をまとめた記事が出ていました。
目玉機能としては、「ExpectAI」という、データの特性に合わせたExpectationの定義を提案してくれる機能が挙げられます。(上記のブログより)
Elementary
最新バージョンの0.16.2がリリース
Elementaryの最新バージョンである0.16.2がリリースとなりました。
リネージ・レポート・アラート周りの機能強化が行われています。
Data Orchestration
Dagster
最新バージョンである1.10がリリース
Dagsterの最新バージョンである1.10がリリースとなりました。
同時実行性、FivetranやAirbyteなどのELTツールとの統合、API周り、で主にアップデートが行われています。