[2023年11月22日号]個人的に気になったModern Data Stack情報まとめ

Modern Data Stack情報まとめモダンデータスタック(MDS)

さがら

2023.11.22

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この3週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項：記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Very large data teams

Mikkel氏により、「Very large data teams」というタイトルでdbt Coalesceで発表があった内容をベースに、大規模なデータ基盤を扱っているSiemens社の事例、Siemens社と同等の規模のデータチームを持つ企業例、についての情報をまとめた記事が出ていました。

下記はブログからの引用ですが、Siemens社で管理しているdbtのボリュームは私も衝撃でした…

800+ dbt projects in a single dbt instance
550+ active dbt developers
2,500 daily jobs running
85,000 dbt models

また、データチームが大規模になる際には、「Ownershipを持つ人が少ないと運用できなくなる」「より高い専門知識をもつデータエンジニアの必要性が高まる」ということも述べられていました。

A Paradigm Shift to More Affordable Data Stacks

2023年9月の記事なのですが、@legobokuさんのXでの投稿で私も知った記事として、DWHとDuckDBをハイブリッドで採用するアーキテクチャについて述べられた記事が出ていました。

昨今はS3などのストレージにApache IcebergやDeltalakeなどのテーブルフォーマットでデータを管理するレイクハウスのアーキテクチャも広まりつつあり、Databricksを筆頭にSnowflakeなど他のDWHもこのアーキテクチャを取り入れた機能開発をしています。

この記事ではレイクハウスアーキテクチャとDuckDBの機能に着目して、小さいワークロードはDuckDB、大きいワークロードはSnowflake、処理内容はどちらもdbt＆Dagsterで管理、とすることで、コスト最適化が測れるアーキテクチャとなると述べています。

Microsoft Fabricが一般提供

Microsoft Power BI、Azure Synapse Analytics、Azure Data Factoryを1つのプラットフォームとして統合したMicrosoft Fabricが一般提供となりました。

Data Extract/Load

Fivetran

パートナー向けにFivetranのConnectorとDestinationの開発ができるSDKの提供を開始

これまで、FivetranのConnectorとDestinationは基本的にFivetran社で開発を行うものでしたが、パートナー企業向けにConnectorとDestinationの開発を行える「Connector SDK」と「Destination SDK」の発表をしました。

具体例として、すでにMotherDuck社がDestination SDKを用いて構築をしているようです。

dbt CloudとLookerのLite Connectorをリリース

Fivetranが、dbt CloudとLookerのLite Connectorをリリースしていました。基本的には、各SaaSで管理しているオブジェクトの情報が中心に取得できるようです。

Airbyte

PDFやWordのテキストを読み取り、そのままの内容をロードする機能を発表

Airbyteが、PDFやWordのテキストを読み取り、そのままの内容をロードする機能を発表していました。

まだExperimentalの機能ではありますが、下図のように各ファイルごとにテキストの内容を1カラムに集約してロードできるようです。

ELTを拡張したELTPについて

昨今のデータ基盤はELT(Extract、Load、Transformation)のプロセスでデータを蓄積・加工することが多いですが、最後にPublishを加えたELTPについて言及された記事がAirbyte社より出ていました。

Publishの部分では、宛先として「ユーザーがデータを参照するファイルサーバーやストレージ」「Salesforceなどのアプリケーション」「PineconeなどのVector Store」が挙げられています。

Data Warehouse/Data Lakehouse

Snowflake

Snowday 2023が開催

現地時間2023年11月1日～11月2日に、Snowday 2023が開催されました。

機械学習・LLM・アプリ開発を中心に、新しい機能が多く発表されています。

私もSnowflake公式のブログやYouTubeを参考にSnowday 2023で発表された内容をまとめているため、ぜひ下記の記事も見て頂けると嬉しいです。

今後SnowflakeでのData Clean Roomの実装が更に楽に

上述のSnowday 2023で言及のあった「Aggregation」や「Projection Policies」という機能を使うことで、今後のSnowflakeでのData Clean Roomの定義がどのようになるか、手順をまとめた記事が日本語で出ていました。

まだこれらの機能はプライベートプレビューなのですぐに試せないのですが、よりSnowflakeでのData Clean Roomの実装が楽になる見込みです。（個人的にも、従来のrow access policyを工夫して使う実装方法は色々と難しい点があったため、嬉しいです！）

Snowpark Model Registryに関する説明記事

上述のSnowday 2023でも言及のあった、Snowpark Model Registryに関する説明記事が出ていました。

具体的な使い方の詳細などは述べられていませんでしたが、Model名とバージョンを軸に、自由記述のタグも付与してそのモデルのリリース状況（experimental、testing、integration、prod/released）などを管理することもできそうです。

Snowflakeのタスク機能についての詳細解説記事

SELECT社より、Snowflakeのタスク機能についての詳細解説記事が出ていました。

タスクの設定方法からSnowsight上でのモニタリング方法まで述べられているので、参考になると思います。

Databricks

「Data Intelligence Platforms」について

Databricks社のブログにて、AIによってData Platformsがより民主化され管理の自動化も進み変化していることについて、Databricks社の見解をまとめた記事が出ていました。

Databricks社ではAIによって変化するData Platformのことを「Data Intelligence Platforms」と呼んでいるようです。

Data Transformation

dbt

dbt Labs社のCEOがdbt Meshやdbt Explorerを実際に試しての所感まとめ

The Analytics Engineering Roundupにてdbt Labs社のCEOであるTristan氏が「My first week with the new dbt.」という記事を出していました。

先月のColesce 2023で発表されたdbt Meshやdbt Explorerを用いて、Tristan氏がdbtの開発をした際の所感についてまとめられています。

Data Application

Streamlit

dbt Semantic Layerを参照できるStreamlitアプリケーション

@takimoさんのXでの投稿で私も知ったのですが、dbt Semantic Layerを参照できるStreamlitアプリケーションについてのリポジトリが公開されています。

このリポジトリのStreamlitアプリでどのようなことができるかは、下記のリンク先の動画にまとまっております。

GUIベースの操作でMetricsやDimensionを選択し、集計後のデータセットと実行されたSQLを確認することができるようです！

Dockerを使って構築したLangChain×StreamlitのアプリをGoogle App Engineにデプロイ

Docker社のブログにおいて、Dockerを使って構築したLangChain×StreamlitのアプリをGoogle App Engineにデプロイする記事が出ていました。

私はDockerはじめコンテナに詳しくない人間なのですが、今後SnowflakeでもSnowpark Container Servicesがリリースされたときにこの記事の内容を試してみたいなと感じました。

Business Intelligence

Looker

Looker 23.20に関するリリースノート

Looker 23.20に関するリリースノートが出ていました。

大きい機能追加はなく、細かい制御についてのアップデートが多めです。

Sisu Data

公式HPがLinkedInにリダイレクトされるように

このまとめブログを書くためにアクセスしたら偶然気づいたのですが、https://sisudata.com/blogにアクセスしたら404 Not Foundが返ってきて、https://sisudata.comにアクセスしたらSisu DataのLinkedInのページにリダイレクトされるようになっていました。

ちょうど2ヶ月ほど前にSnowlflakeと協業するリリースが出ていましたが、今後の動向が気になるところです。

Data Catalog

Select Star

列レベルリネージを活用した事例集

Select Starを導入して、列レベルリネージを用いてどのような効果を得ることができたか、5社の事例がまとめられた記事が出ていました。

以下、この記事で記述のあった効果のまとめです。

破損したダッシュボードの原因調査のためにクエリを読み解いていたのが、リネージを見るだけで済むようになった
数千ものテーブルとダッシュボードを維持していたが、リネージと利用状況を見て整理することで、全テーブルの43%と全ダッシュボードの66%を整理できた
カラムごとにどれだけクエリされているかPopularityがわかることを用いてテーブルの統合を行い、データパイプラインのコストを70%削減、エンジニアのデバック時間を80%削減できた

Data Activation (Reverse ETL)

Hightouch

Hightouch Eventsに対するData Contracts機能の発表

Hightouchは少し前にイベントデータを収集するための機能としてEventsを発表しましたが、このEventsのデータに対するData Contractsの機能を発表しました。

Hightouchの画面上でContractsの設定をしておくことで、Eventsによって収集されたデータがContractsの設定に反する場合には別のテーブルに書き込むことでEventsの収集先の本番テーブルとパイプラインに影響を及ぼさない、ということができるようです。

HightouchがHeadsUpを買収

HightouchがHeadsUpという企業を買収したことを発表しました。

私もHeadsUpのことは初耳だったのですが、顧客データを元に機械学習によってコンバージョンの予測が行える製品と理解しています。

Salesforce CDPとSegmentについてHightouchがまとめた記事

Salesforce CDPとSegmentというCDP製品について、それぞれどんな機能を持っているかまとめた記事がHightouchより出ていました。

HightouchはDWHを軸としたComposable CDPを推進していることもあり従来のCDP製品がどういったものか個人的にも知りたかったので、他のCDP製品をざっくりと知るには良い記事でした。

Census

Census Embeddedの発表

Censusが新機能として「Census Embedded」を発表しました。

概要としては、顧客向けのアプリケーションにCensusが提供するReverse ETL機能を埋め込むことができる、というものになります。

一つ具体例としては、「データを提供することをビジネスとしている企業が、その提供しているデータを各顧客のCRMやMAなどのアプリケーションに連携させる機能をCensus Embeddedを用いて提供する」などが考えられます。

Data Quality・Data Observability

Monte Carlo

Monte Carlo社の年次イベント「Impact 2023」が開催

Monte Carlo社の年次イベント「Impact 2023」が開催されました。

このImpactでは、Monte CarloがKafkaとVector Databaseへの対応をしていくと発表があったようです。

Soda

Data Contracts機能を発表

Data ObservabilityのSaaSを提供しているSodaがData Contracts機能を発表しました。

YAMLベースで各カラムについてデータ型や値の範囲などを定義することができるようです。また、ドキュメントを見るとPythonなどのプログラムを用いて対象のデータがContractsを遵守しているかを確認する処理を実行できるようなので、この処理を上流のデータソース側に組み込めると、下流のデータ基盤側でのトラブルが減るのではと感じました。

Sodaについては、弊社でも一度ブログにしておりますのでこちらも参考にしてみてください。