[2023年8月2日号]個人的に気になったModern Data Stack情報まとめ

Modern Data Stack情報まとめモダンデータスタック(MDS)

さがら

2023.08.02

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項：記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

The SaaS Trends Report Q2:2023

一部だけがModern Data Stackと関わる内容とはなりますが、SaaSの売買プラットフォームを提供するVendr社により、2023年Q2版のSaaSのトレンドをまとめたレポートが出ていました。

１つ興味深かった点を挙げると、「Vendr社のデータ上は、各ベンダーが開発するAI機能がユーザーの購入意欲に強い影響を与えていない」といった表記があったことです。ただトレンドに乗っただけの機能では駄目で、顧客のニーズに刺さるAI機能を出さないと難しいのだなと感じました。

Data Quality Engineer: Skills, Salary, ＆ Tools Required

Monte Carlo社により、Data Quality Engineerというデータの品質管理に特化したロールについて、どんなスキルが必要で、どんな業務を行うか、ということをまとめた記事が出ていました。

Data Reliability Engineerとも近しいロールではあり、日本ではData Engineerの方がデータ品質周りも併せて対応されるケースが現状は多いと思いますが、米国だとさらなる細分化が進んでいるのだなと改めて感じました。

Data Extract/Load

Airbyte

AirbyteでVector DatabaseをDestinationとして設定可能に

AirbyteでVector DatabaseをDestinationとして設定可能になることを発表しました。

直近はPineconeとembedded DocArray databaseに対応するようですが、今後さらなる拡張を予定しているとのことです。

Airbyte向けのTerraform Providerがリリース

Airbyte APIに基づいた、Airbyte向けのTerraform Providerがリリースされました。

サンプルコードが記載されたドキュメントもありますので、ぜひご覧ください。

Data Warehouse/Data Lakehouse

全般

Snowflake

Snowpark Container Servicesを使ってLlama v2のモデルを用いたアプリケーションのデプロイ

Snowflakeの公式ブログより、Snowpark Container Servicesを使ってLlama v2のモデルを用いたアプリケーションのデプロイしている記事が出ていました。

個人的には、GPUベースのリソースを作成する際はCREATE COMPUTE POOL、サービスを開始する際はCREATE SERVICEというコマンドを使って、かつこれらのノードやインスタンスの最小・最大値を決めるオプションパラメータにもあったので、普通のウェアハウスと同じような設定感覚で定義ができそうなのが嬉しいですね！

Dynamic Tableに関する解説記事

Dynamic Tableに関する解説記事が出ていました。

Dynamic TableはCREATE DYNAMIC TABLE文だけでデータ変換のパイプラインを簡単に構築できますが、マテリアライズドビューやストリーム＆タスクとどう使い分ければよいか悩むと思います。

この記事では、これらの方法とどう使い分ければよいのかの記載もありますので、気になる方はぜひご覧ください。

Snowflake上のデータに関して対話的に情報を得られる「SnowChat」アプリケーション

Streamlitのブログにおいて、Snowflake上のデータに関して対話的に情報を得られる「SnowChat」アプリケーションの作り方が記載されたブログが出ていました。

実際にアプリだけを試すこともできますし、コードも公開されています。

Data Transform

dbt

dbt Core ver1.6がリリース

dbt Coreのver1.6が正式にリリースされました！

個人的には、MetricFlow統合後のSemantic Layerのリリースに向けたdbt-metricsからdbt-semantic-interfacesへの切り替え、run_results.jsonを元に前回失敗した時点から再開してくれるdbt retryコマンド、Snowflakeなどのクローンをdbt経由で生成できるdbt cloneコマンド、あたりが気になりました！

Snowflakeとdbt Python Modelを併せて使ったときの仕様・動作速度検証のまとめ記事

Snowflake社のFelipe氏により、「How Snowflake makes the dbt Python models shine」というタイトルでSnowflakeとdbt Python Modelを併せて使った際の仕様や動作速度検証についてまとめられた記事が出ていました。

内容としてSnowflakeとdbt Python Modelの組み合わせだと、Snowpark for PythonのDataframeにおける加工処理は全てSQLに変換されて実行され、SQLに変換できない別のPythonライブラリを用いた処理でもSnowflakeのPython UDFに変換され実行される、と言ったことが書かれています！

ChatGPTを用いてdbtのドキュメントとテストに関わるYAMLを高速に作成

ChatGPTを用いてdbtのドキュメントとテストに関わるYAMLを高速に作成する方法について書かれた記事が出ていました。

内容としては非常に簡単で、テーブル定義のDDL文と併せてdbt style YAMLをChatGPTでリクエストすると、そのままdbt上で使える形でYAMLを作ってくれるというものです。

dbt-utilsのユースケース5選

CastorDoc社のブログにおいて、dbt-utilsのユースケースが5つまとめられた記事が出ていました。

特に4番目のURLからドメイン抽出するようなWeb Macrosと、5番目のget_filtered_columns_in_relationを用いた参照先のModelのカラムが変更されたらSELECTするカラムを動的に変える、といった処理は勉強になりましたね。

React Server Componentsを用いたdbtドキュメントの高速化

Dagsterのブログにて、React Server Componentsを用いることでdbtのドキュメントのパフォーマンスが20倍良くなったということをまとめた記事が出ていました。

コードも下記のリポジトリで公開されています。

SDF

SDF - The Semantic Data Fabricの発表

新しいデータ変換処理の開発サービスとして、SDFが発表されました。創業者は、PiñataFarms社でVPoEをされていたLukas氏、PiñataFarms社でSoftware EngineerをされていたElias氏、Meta社でSoftware Development EngineerをされていたWolfram氏です。

基本はSQLで開発していくようですが、YAMLで定義したコードチェックでCI/CDを実行、ソーステーブルでカラムにラベル付けをすると下流のテーブルのカラムにもラベル付けが自動でされる、といった機能が紹介されていたので気になりますね！

ブログ

公式HP

Semantic Layer

全般

セマンティックレイヤー / Headless BIとは

たくまんさんにより、Semantic Layer/Headless BIに関する解説記事が出ていました。

Sematic Layerの仕組みや、導入メリット、LLMとのかけ合わせ、注目されているサービス、と幅広くSematic Layerについて述べられていて参考になる方は多いと思います。個人的には、データ利用者が直接SQLを書かずにデータを取得出来る技術自体は1991年にSAP社が取得した特許があることは知らなったので勉強になりましたｗ

Business Intelligence

Preset

What’s New in Preset - Summer 2023

2023年夏にリリースされたPresetの新機能に関するまとめ記事が出ていました。

個人的には、任意のディメンションでドリルダウンの分析が出来る「Drill By」機能は便利だなと感じました。

Data Catalog

Stemma

TeradataがStemmaの買収を発表

Teradata社がStemma(OSSのデータカタログであるAmundsenのマネージドサービス)を買収したことを発表しました。

Data Activation (Reverse ETL)

Hightouch

Hightouch社が3800万ドルの資金調達を行い、併せて「Customer 360 Toolkit」を発表

Hightouch社が3800万ドルの資金調達を行いました。

併せて、データウェアハウス内のデータを活用して顧客のプロファイルを充実したものに出来る新機能として「Customer 360 Toolkit」も発表されました。主に以下のことができるようです。

Schema builderを用いたHightouch上での各テーブル間のリレーション定義
Match Boosterを用いた他のファーストパーティデータを用いたユーザープロファイルの充実
Identity Resolution Serviceを用いた、GUIベースでのユーザーに関わるレコード同士の結合ロジックの定義

Identity Resolutionについては、別の記事も出ていましたのでこちらもぜひご覧ください。

Data Quality・Data Observability

Monte Carlo

「Data Product Dashboard」を発表

Monte Carloの新機能として、アプリケーションに使用されるテーブル・BIツールのダッシュボード、などをひとまとめにして、健全性・信頼性を観測できる「Data Product Dashboard」を発表されました。

Datafold

DatafoldがVS Codeの拡張機能を発表

Datafoldで行えるデータ品質テスト、データ比較、などをVS Code上で使用できる拡張機能が発表されました。

VS Code拡張機能は、DatafoldのOSSであるdata-diffを拡張したもので、dbtモデルのdev 結果とprod結果をすばやく実行して比較したり、GUIベースでデータの差分を表示して操作したり、ということができるようです。

下記の記事にスクリーンショットやデモ動画も併せて掲載されていますので、ぜひご覧ください。

Elementary

Webサイトを刷新し、クラウド版も併せて公開

dbtと親和性の高いOSSのData ObsevabilityのツールとしてElementaryがありましたが、Webサイトが刷新され、併せてクラウド版も公開されていました。

Elementaryについては、今年3月に行われたイベントでもちゅらデータ社の菱沼さんが発表されていたり、テックタッチ社のブログでも検証されていますので、こちらも参考になるかと思います。

Data Orchestration

Prefect

PrefectがWebサイトを刷新

PrefectがWebサイトを刷新していました。製品のUIが大きく変わるなどの話は今のところはなさそうです。