[2024年10月16日号]個人的に気になったModern Data Stack情報まとめ

[2024年10月16日号]個人的に気になったModern Data Stack情報まとめ

Clock Icon2024.10.16

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Data Extract/Load

Airbyte

Airbyte 1.1.0がリリース

Airbyteの最新バージョンとして、1.1.0がリリースされました。

https://docs.airbyte.com/release_notes/v-1.1

新機能として「Timeline」という、各Connectionごとに「Syncイベント」、「設定の変更イベント」、「スキーマ変更イベント」などを確認できる画面が追加されています。これまでよりもConnectionの監視がしやすくなりそうな機能ですね。

https://airbyte.com/blog/audit-connections-with-the-new-timeline-feature

dlt

dlt-dbt-generatorの発表

dltでロードされたデータに対して、staging層、mart層(dim、fact)に該当するModelを自動で生成してくれるdlt-dbt-generatorという機能を発表しました。※私も明確に確認できていないのですが、YouTubeの概要文を見る限りは「dlt+限定の機能」らしいため、注意が必要です。

これに関連して、dbt Hubに新しいdbt packageも2024年10月中に公開予定とのことです。

https://dlthub.com/blog/dbt-gen

https://www.youtube.com/watch?v=9HWykQd0gO4&t=7s

Data Warehouse/Data Lakehouse

Snowflake

Native AppsとStremalit in SnowflakeでAWS PrivateLinkをサポート

Native AppsとStremalit in SnowflakeでAWS PrivateLinkをサポートする機能の発表がありました。

https://docs.snowflake.com/en/release-notes/2024/other/2024-10-08-na-aws-pl

https://docs.snowflake.com/en/release-notes/streamlit-in-snowflake#october-07-2024-aws-privatelink-in-sis-preview

Organization accountsがプレビュー

新しいOrganizationを管理するためのアカウントとして、Organization accountsがプレビューとなりました。

https://docs.snowflake.com/en/release-notes/2024/other/2024-10-01-organization-account

https://docs.snowflake.com/en/user-guide/organization-accounts

新しいOrganization AccountとGLOBALORGADMINロールが追加となり、アカウントの作成や全アカウントのACCOUNT_USAGEスキーマを統合して閲覧できるORGANIZATION_USAGEスキーマなど、より組織全体のアカウントを管理するための機能を分離できるようになっています。

https://medium.com/snowflake/organization-account-public-preview-e7b4bff51ac0

Snowflake Feature Storeをdbtで管理する方法

dbt LabsのDeveloper Blogより、Snowflake Feature Storeをdbtで管理する方法についてまとめた記事が出ていました。

https://docs.getdbt.com/blog/snowflake-feature-store

Feature Storeとdbtの組み合わせについてはQuickstartも出ているため、こちらも参考になると思います。

https://quickstarts.snowflake.com/guide/getting-started-with-feature-store-and-dbt/index.html?index=..%2F..index#0

BigQuery

BigQuery tables for Apache Icebergがプレビュー

BigQueryでテーブルを作成する際にIcebergの形式で構成できるBigQuery tables for Apache Icebergがプレビューとなりました。

https://cloud.google.com/blog/products/data-analytics/announcing-bigquery-tables-for-apache-iceberg?hl=en

https://cloud.google.com/bigquery/docs/iceberg-tables

注意点としては、ドキュメントのBest practicesに下記のように記載があったため、BigQuery tables for Apache Icebergのテーブルに対するデータの変更はBigQueryでのみ行うことを推奨しています。

Warning: Modifying data files for Iceberg tables outside of BigQuery can cause query failure or data loss. To prevent this, use BigQuery to update or modify Iceberg tables.

Pipe syntaxがプレビュー

BigQuery上で、下記のような構文でクエリを実行できるPipe syntaxがプレビューとなりました。

-- Compute total sales by item
FROM mydataset.produce
|> WHERE sales > 0
|> AGGREGATE SUM(sales) AS total_sales, COUNT(*) AS num_sales
   GROUP BY item;

/*---------+-------------+-----------+
 | item    | total_sales | num_sales |
 +---------+-------------+-----------+
 | apples  | 9           | 2         |
 | bananas | 15          | 1         |
 +---------+-------------+-----------*/

https://cloud.google.com/bigquery/docs/pipe-syntax

Databricks

OSS版のUnity CatalogのVer 0.2がリリース

OSS版のUnity CatalogのVer 0.2がリリースされました。

https://github.com/unitycatalog/unitycatalog/releases/tag/v0.2.0

このリリースに関する公式ブログも併せて出ています。外部IdPを用いた認証、MLflowのModelのサポート、Apache SparkとDelta Lakeを使用してUnity Catalogに登録されたテーブルに対するクエリ実行、GUIベースのUI提供、と多くの機能が追加されています。

https://www.unitycatalog.io/blogs/unity-catalog-0-2-introduces-models-mlflow-and-spark-integration-and-support-for-external-identity-providers

MotherDuck/DuckDB

MotherDuckとdbtを組み合わせたチュートリアル

MotherDuck社より、MotherDuckとdbtを組み合わせたチュートリアルがリポジトリとして提供されていました。

https://github.com/matsonj/stocks

こちらのチュートリアルに関してはブログも投稿されています。

https://motherduck.com/blog/motherduck-dbt-pipelines/

Data Transform

dbt

Coalesce 2024が開催され多くの新機能を発表

現地時間2024年10月7日~10月10日に、dbt Labs社の年次カンファレンスイベントである「Coalesce」が開催されました。

https://coalesce.getdbt.com/

イベント全体のまとめや発表された新機能については、下記のブログが参考になると思います。

https://www.getdbt.com/blog/coalesce-2024-highlights

https://www.getdbt.com/blog/coalesce-2024-product-announcements

発表された新機能としては、このあたりがあります。個人的には、Incremental Modelのmicrobatch strategyが激アツ機能です!

  • dbt Cloudのみ
    • Icebergに対応したプラットフォーム間でのdbt Meahを構築できるCross-platform dbt Mesh
    • GUIベースの操作でモデリングを行う機能
    • yamlなどを自動生成してくれるdbt Copilot
    • CI Jobsに関するより詳細な情報を確認できるAdvanced CI
    • TableauダッシュボードへのAuto-exposure(参考ブログ
    • dbt Explorerで各リソースにtrust signal iconsが表示されるように(参考ブログ)
  • dbt Core 1.9 ※まもなく正式リリース
    • クエリサイズを日時で分割しbackfill処理も行いやすいdbt incremental modelの「microbatch」strategy(参考ブログ)
    • snapshotsの定義をyamlファイルでできるように
    • foreign keyの定義をconstraintsでできるように

他の新機能については下記のリリースノートやアップグレードガイドを別途ご確認ください。

https://docs.getdbt.com/docs/dbt-versions/dbt-cloud-release-notes

https://docs.getdbt.com/docs/dbt-versions/core-upgrade/upgrading-to-v1.9

SQLMesh

dbt: Incremental but Incomplete

SQLMeshのブログより、「dbt: Incremental but Incomplete」というタイトルでdbtの新機能であるmicrobatchのincremantal modelは不完全であるということを述べた記事が出ていました。

私もSQLMeshは使用したことがないのですが、自分でバッチサイズを分けて定義することで1週間分のデータをまとめて1つのクエリとして実行する、ということがSQLMeshでは出来るようです。

https://tobikodata.com/dbt-incremental-but-incomplete.html

Semantic Layer

Cube

初のオフラインカンファレンスである「Cube Rollup」にて多くの新機能を発表

Cubeが初のオフラインカンファレンスである「Cube Rollup」を開催しました。

https://cube.dev/events/cube-rollup-san-francisco

このカンファレンスの基調講演で、多くの新機能が発表されました。

  • 次世代データ モデリング エンジン (コード名 Tesseract) を導入:パフォーマンスを向上、二段階の集計が必要なmeasureの計算の定義が容易に
  • Cube Visual Modeler:GUIベースでのSemantic Layerの定義が可能に
  • Cube Copilot:コメントに応じたコードの自動生成などが可能に
  • Data Access Policies:ユーザーのロールに応じて、データレベル・行レベル・列レベルのアクセス制御が可能に

https://cube.dev/blog/introducing-next-gen-data-modeling-ai-powered-capabilities-and-enhanced

各新機能についても個別にブログが出ています。

https://cube.dev/blog/introducing-next-generation-data-modeling-engine

https://cube.dev/blog/introducing-cube-visual-modeler-empowering-everyone-to-build-with-data

https://cube.dev/blog/introducing-cube-copilot-your-new-partner-in-building-semantic-layers-with

https://cube.dev/blog/introducing-data-access-policies-in-cube-cloud

Business Intelligence

Looker

24.18のリリースノートが公開

Lookerの最新バージョンである24.18のリリースノートが公開されました。

目ぼしい機能としては、Looker内でLooker Studioが使えるようになったこと(プレビュー)、Explore query trackerというクエリのパフォーマンス監視機能が追加されたこと(Lab機能)、が挙げられると思います。

https://cloud.google.com/looker/docs/release-notes#October_09_2024

Tableau

2024.3がリリース

以前から情報は出ていたTableau 2024.3ですが、リリースノートからダウンロードできるようになりました。

https://www.tableau.com/ja-jp/support/releases

2024.3で追加される新機能については、下記のページから確認可能です。

https://www.tableau.com/ja-jp/products/new-features

Lightdash

Lightdashが1100万USDの資金調達を実施

Lightdashが1100万USDの資金調達を実施したことを発表しました。

https://www.lightdash.com/blogpost/lightdash-raises-series-a

また、改めてLightdashについての説明記事が出ていました。実は私も知らなかったのですが、LightdashのUI上で記述したSQLをdbtのModelとして連携しているリポジトリへコミットできる機能についてもデモ動画と共に本記事で説明されています。

https://www.lightdash.com/blogpost/the-ideal-workflow-for-governed-bi-with-dbt

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.