[2024年10月16日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Data Extract/Load
Airbyte
Airbyte 1.1.0がリリース
Airbyteの最新バージョンとして、1.1.0がリリースされました。
新機能として「Timeline」という、各Connectionごとに「Syncイベント」、「設定の変更イベント」、「スキーマ変更イベント」などを確認できる画面が追加されています。これまでよりもConnectionの監視がしやすくなりそうな機能ですね。
dlt
dlt-dbt-generatorの発表
dltでロードされたデータに対して、staging層、mart層(dim、fact)に該当するModelを自動で生成してくれるdlt-dbt-generatorという機能を発表しました。※私も明確に確認できていないのですが、YouTubeの概要文を見る限りは「dlt+限定の機能」らしいため、注意が必要です。
これに関連して、dbt Hubに新しいdbt packageも2024年10月中に公開予定とのことです。
Data Warehouse/Data Lakehouse
Snowflake
Native AppsとStremalit in SnowflakeでAWS PrivateLinkをサポート
Native AppsとStremalit in SnowflakeでAWS PrivateLinkをサポートする機能の発表がありました。
Organization accountsがプレビュー
新しいOrganizationを管理するためのアカウントとして、Organization accountsがプレビューとなりました。
新しいOrganization AccountとGLOBALORGADMINロールが追加となり、アカウントの作成や全アカウントのACCOUNT_USAGEスキーマを統合して閲覧できるORGANIZATION_USAGEスキーマなど、より組織全体のアカウントを管理するための機能を分離できるようになっています。
Snowflake Feature Storeをdbtで管理する方法
dbt LabsのDeveloper Blogより、Snowflake Feature Storeをdbtで管理する方法についてまとめた記事が出ていました。
Feature Storeとdbtの組み合わせについてはQuickstartも出ているため、こちらも参考になると思います。
BigQuery
BigQuery tables for Apache Icebergがプレビュー
BigQueryでテーブルを作成する際にIcebergの形式で構成できるBigQuery tables for Apache Icebergがプレビューとなりました。
注意点としては、ドキュメントのBest practicesに下記のように記載があったため、BigQuery tables for Apache Icebergのテーブルに対するデータの変更はBigQueryでのみ行うことを推奨しています。
Warning: Modifying data files for Iceberg tables outside of BigQuery can cause query failure or data loss. To prevent this, use BigQuery to update or modify Iceberg tables.
Pipe syntaxがプレビュー
BigQuery上で、下記のような構文でクエリを実行できるPipe syntaxがプレビューとなりました。
-- Compute total sales by item
FROM mydataset.produce
|> WHERE sales > 0
|> AGGREGATE SUM(sales) AS total_sales, COUNT(*) AS num_sales
GROUP BY item;
/*---------+-------------+-----------+
| item | total_sales | num_sales |
+---------+-------------+-----------+
| apples | 9 | 2 |
| bananas | 15 | 1 |
+---------+-------------+-----------*/
Databricks
OSS版のUnity CatalogのVer 0.2がリリース
OSS版のUnity CatalogのVer 0.2がリリースされました。
このリリースに関する公式ブログも併せて出ています。外部IdPを用いた認証、MLflowのModelのサポート、Apache SparkとDelta Lakeを使用してUnity Catalogに登録されたテーブルに対するクエリ実行、GUIベースのUI提供、と多くの機能が追加されています。
MotherDuck/DuckDB
MotherDuckとdbtを組み合わせたチュートリアル
MotherDuck社より、MotherDuckとdbtを組み合わせたチュートリアルがリポジトリとして提供されていました。
こちらのチュートリアルに関してはブログも投稿されています。
Data Transform
dbt
Coalesce 2024が開催され多くの新機能を発表
現地時間2024年10月7日~10月10日に、dbt Labs社の年次カンファレンスイベントである「Coalesce」が開催されました。
イベント全体のまとめや発表された新機能については、下記のブログが参考になると思います。
発表された新機能としては、このあたりがあります。個人的には、Incremental Modelのmicrobatch strategyが激アツ機能です!
- dbt Cloudのみ
- dbt Core 1.9 ※まもなく正式リリース
- クエリサイズを日時で分割しbackfill処理も行いやすいdbt incremental modelの「microbatch」strategy(参考ブログ)
- snapshotsの定義をyamlファイルでできるように
- foreign keyの定義をconstraintsでできるように
他の新機能については下記のリリースノートやアップグレードガイドを別途ご確認ください。
SQLMesh
dbt: Incremental but Incomplete
SQLMeshのブログより、「dbt: Incremental but Incomplete」というタイトルでdbtの新機能であるmicrobatchのincremantal modelは不完全であるということを述べた記事が出ていました。
私もSQLMeshは使用したことがないのですが、自分でバッチサイズを分けて定義することで1週間分のデータをまとめて1つのクエリとして実行する、ということがSQLMeshでは出来るようです。
Semantic Layer
Cube
初のオフラインカンファレンスである「Cube Rollup」にて多くの新機能を発表
Cubeが初のオフラインカンファレンスである「Cube Rollup」を開催しました。
このカンファレンスの基調講演で、多くの新機能が発表されました。
- 次世代データ モデリング エンジン (コード名 Tesseract) を導入:パフォーマンスを向上、二段階の集計が必要なmeasureの計算の定義が容易に
- Cube Visual Modeler:GUIベースでのSemantic Layerの定義が可能に
- Cube Copilot:コメントに応じたコードの自動生成などが可能に
- Data Access Policies:ユーザーのロールに応じて、データレベル・行レベル・列レベルのアクセス制御が可能に
各新機能についても個別にブログが出ています。
Business Intelligence
Looker
24.18のリリースノートが公開
Lookerの最新バージョンである24.18のリリースノートが公開されました。
目ぼしい機能としては、Looker内でLooker Studioが使えるようになったこと(プレビュー)、Explore query trackerというクエリのパフォーマンス監視機能が追加されたこと(Lab機能)、が挙げられると思います。
Tableau
2024.3がリリース
以前から情報は出ていたTableau 2024.3ですが、リリースノートからダウンロードできるようになりました。
2024.3で追加される新機能については、下記のページから確認可能です。
Lightdash
Lightdashが1100万USDの資金調達を実施
Lightdashが1100万USDの資金調達を実施したことを発表しました。
また、改めてLightdashについての説明記事が出ていました。実は私も知らなかったのですが、LightdashのUI上で記述したSQLをdbtのModelとして連携しているリポジトリへコミットできる機能についてもデモ動画と共に本記事で説明されています。