[2023年8月16日号]個人的に気になったModern Data Stack情報まとめ

2023.08.16

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Composable CDPについての解説記事

最近のModern Data Stack界隈では「Composable CDP」という単語がちらほらと耳にしますが、その内容について解説された記事がHightouch社から出ていました。(タイトルやアイキャッチがなかなかですが…w)

この記事からの引用ですが、以下のアーキテクチャ図がわかりやすいと感じました!従来のCDPではデータがCDPとDWHで別れてしまっていたところ、1つのDWHにデータを溜めて管理することで、ユーザーやイベント以外のあらゆる属性情報と紐づけた顧客データの活用ができるのがComposable CDPと言えそうですね。

  • 従来のCDPのアーキテクチャ

  • Composable CDPのアーキテクチャ

Dagster社が執筆しているデータエンジニア向けPython入門記事

Dagster社は定期的にデータエンジニア向けのPython入門記事を執筆していますが、この2週間の間にも下記の2本の記事を新しく投稿していました。

また、こちらの投稿のスレッド欄でもこれまでに投稿したPython入門記事をまとめていました。この投稿に記載されていた記事は以下になります。

Data Extract/Load

Airbyte

Airbyteを用いてPineconeにデータを転送しLLM用途で活用するチュートリアル

Airbyteを用いてPineconeにデータを転送し、LangchainとOpenAIを用いてLLM用途で転送したデータを活用するチュートリアル記事が出ていました。

Data Warehouse/Data Lakehouse

Snowflake

Snowflake Native App Frameworkを用いた不動産データに関するデモアプリの作り方

Snowflake Native App Frameworkを用いた不動産データに関するデモアプリの作り方がまとめられた記事が出ていました。

データは、Snowflake Marketplaceで公開されている「Knoema Real Estate Data Atlas」を用いているようです。

リポジトリも公開されています。

BigQuery

BQMLを用いて構築したモデルをVertex AIにデプロイする手順

BQMLを用いて構築したモデルをVertex AI二デプロイする手順がまとめられた記事が出ていました。

私はこのVertex AI周りの知識には疎いのですが、BQMLでモデルを作成するときにVertex AI向けのオプションを指定することで簡単にVertex AI Model Registryに登録できるようですね!

Databricks

Delta Lakeで定義した際にIceberg・Hudi用のメタデータを自動生成する「Delta UniForm」についての解説記事

Databricksが、Delta Lakeで定義した際にIceberg・Hudi用のメタデータを自動生成する「Delta UniForm」プレビュー版をリリースし、その解説記事を出していました。

より詳細な内容は各公式ページが参考になると思います。

Data Transform

dbt

dbt Cloudの料金体系でビルドしたModelの数量も考慮されるように

dbt Cloudの料金体系の変更に関する記事が出ており、元々のユーザーごとのライセンス料に加え、ビルドしたModelの数量も考慮されるようになるとのことです。

MetricFlow統合後のdbt Semantic Layerに関する紹介記事

dbt Core ver1.6のリリースに併せてMetricFlow統合後のSemantic LayerがPublic Betaになったことについて、今できることや今後の開発予定などが述べられた記事が出ていました。

気になっていたサードパーティ製品との連携は、現時点ではHexとModeが対応しているようですね。

費用については、「The dbt Semantic Layer will be available as a paid component of dbt Cloud at the end of our Public Beta in October.」ってことで、Public Beta終了後はdbt Cloudの有償オプションとなりそうです。

dbt Cloudのドキュメントでも、Public Betaが公開されたことの記事が出ていました。

dbt Core ver1.6からMaterialized Viewが使えるように

dbt Core ver1.6からMaterialized Viewが使えるようになったため、その解説記事が出ていました。

特にSnowflakeにおいては「Dynamic Table」が定義できるようになっており、Lagを定義して指定した時間間隔でテーブル更新が行えるようになっています。マクロを用意してtargetに応じてLagの値を動的にするテクニックも書いてあり参考になりますね。

また、この機能についてはharryさんも検証されています!ぜひこちらの記事も併せてご覧ください。

Fivetran社が開発するdbt Core用のVS Code拡張機能「Wizard for dbt Core」がSnowflakeに対応

Fivetran社が開発するdbt Core用のVS Code拡張機能「Wizard for dbt Core」がSnowflakeに対応したと発表がありました。

昨年の10月にBigQuery向けの拡張機能としてリリースされていましたが、今回Snowflakeにも対応したとのことです。

この拡張機能がどんなことができるかは、リリース当初の記事が参考になるため、ぜひこちらを御覧ください。macro・Model・Sourceの参照の自動補完、エラーがある場合の表示、プルダウンによるGUI操作でのpackages.ymlへの自動追記、などが出来るようです。

インストールする際は下記のVS CodeのMarketplaceをご確認ください。

dbt Cloud Administrator試験が公開

いつからかはわかっていないのですが、「dbt Cloud Administrator」認定試験が公開されていました。

海外ではすでに受験者もいるようで、受験レポート記事も投稿されていました。

Data Application

Streamlit

AI面接官のアプリケーション構築記事

音声入力機能にも対応した、AI面接官チャットボットのアプリケーション構築に関する記事が出ていました。

Business Intelligence

Looker

Looker 23.14の発表

Looker 23.14が発表されました。

大きい機能アップデートはないようですが、Looker以外のBIツールから接続した際のクエリ一覧をSystem Activityから確認できるようになるようで、LookerがSemantic Layerとしての機能を高めていこうという雰囲気を感じました。

Data Catalog

Atlan

AtlanのタグとSnowflakeのタグについて双方向にプッシュできる機能を発表

AtlanのタグとSnowflakeのタグについて、双方向にプッシュできる機能が発表されました。

データカタログ上で管理したタグをSnowflakeにプッシュできれば、Snowflake上でタグベースのマスキングポリシーなどに活かすことができるので、便利な場面も多いと思います!

Data Activation (Reverse ETL)

Hightouch

HightouchとCensusの比較記事

Hightouch社より、HightouchとCensusを比較して違いを述べた記事が出ていました。

Censusとの比較記事をHightouch社が出しているという点は考慮すべきですが、比較的客観的な観点で各機能や費用面の違いが述べられているので、参考になる点もあると思います。

Data Quality・Data Observability

Monte Carlo

Data Observabilityに関する解説動画

弊社の紗紗より、「モダンデータスタック最前線〜データオブザーバビリティ〜」というタイトルでビデオセッションが公開されました。

Monte Carloが公開している情報を元に、Data Observabilityについて噛み砕いて説明いただいており、弊社の動画ではありますが非常にわかりやすくまとまっていると私も感じています!ぜひご視聴ください。

  • YouTube

  • 登壇ブログ

Monte Carlo社によるData Observabilityに関する解説記事

上述の弊社動画と偶然タイミングが被ったのですが、Monte Carlo社からもData Observabilityに関する解説記事が出ていました。

Datafold

OSSのdata-diffとDatafold Cloudの違いについて

Datafold社が提供するOSSのdata-diffと、そのクラウド版にあたるDatafold Cloudについての違いをまとめた記事が出ていました。

Data Orchestration

Airflow

dbt projectを各Modelの粒度でAirflowのタスクに分解して実行できる「Cosmos」がVer1.0をリリース

Airflowのマネージドサービスを提供するAstronomer社より、「Cosmos」というdbt projectを各Modelの粒度でAirflowのタスクに分解して実行できるOSSのVer1.0がリリースされました。

Airflow + dbt Coreをそのまま使おうとするとModelを各タスクに分解出来ない問題があるのですが、このCosmosを使うとこの点が解決できそうです。(下図はAstronomer社のブログより)