[2023年9月13日号]個人的に気になったModern Data Stack情報まとめ

2023.09.13

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

The State of Data Meshが開催

Atlan社の主催で、「The State of Data Mesh」というイベントが開催されました。

Data Meshの考案者であるZhamak氏をはじめ、dbt Labs社のCEOであるTristan氏、Monte Carlo社のCEOであるBarr Moses氏、Atlan社のCEOであるPrukalpa氏、など登壇者が非常に豪華なイベントです。

下記のURLより、メールアドレスの登録は必要ですが録画を見ることも出来ます!

Data Warehouse/Data Lakehouse

Snowflake

Data Cloud World Tour Tokyoが開催

Snowflakeのオフラインイベントとして、Data Cloud World Tour Tokyoが開催されました!私は主にブース対応をしていたのですが、台風の影響を感じさせないほど参加者が多く大盛況でしたね!

弊社でも各セッションのレポートブログを書いておりますので、ぜひこちらからご覧ください。

外部のAPIを叩けるプロシージャやUDFが実装できるExternal Network Accessがパブリックプレビュー

新機能として、External Network Accessがパブリックプレビューとなりました。

実装例としては下記の記事のように、Open AIのAPIを叩くプロシージャの作成、BigQueryへのFederated Queryを用いたSnowflakeのデータとのJOIN、など幅広い用途で使えそうです!

2023年8月のSnowflakeに関する新着情報まとめ記事

Snowflake Developers & Community Updateから、2023年8月のSnowflakeに関する新着情報まとめ記事が出ていました。

個人的には、無料のNative App Bootcamp新しいNative AppのQuickstartDynamic Tableのエラー通知、などが気になりました。

ユーザー自身が管理するSalesforceのデータをZero ETLでSnowfake上で使用できる機能が一般提供

Salesforce Data CloudからSnowflake Data Cloudを使用したBring Your Own Lake (BYOL)データ共有の一般提供を発表しました。

これまでSalesforceのデータを使用することを考えると何かしらのELT/ETLのツールやコードを用いてロードしないといけなかったですが、この機能を使うことでこれらのツールやコードが不要になるかもしれません!まさにZero-ETLですね。

SnowflakeでKinesis Data Firehose の一行に連なった形式のJSONがロードできるようになりました

個人的な事情もあってインパクトが大きかった記事なのですが、SnowflakeでJSONをロードする際に、1行に連なった形式のJSONもロードできるようになりました!

特にKinesis Data Firehoseから出力したJSONファイルはこの1行に連なった形式のため、特に加工をせずともそのままSnowflakeにロードできるのは嬉しいですよね。

Data Transform

dbt

dbt CloudでDeploy JobsとCI Jobsで設定が分かれるように ※Betaとして提供

dbt Cloudでは元々ジョブのトリガー設定でPull RequestをトリガーにすることでCIのジョブを実行できましたが、これからのdbt Cloudでは「Deploy Jobs」と「CI Jobs」という形でジョブの作成時に選択して設定できるようになります。※2023/9/13時点ではBetaとして提供

以前のCIジョブとの違いとしては、CIジョブの実行中に新しいコミットがされた場合、その実行中のCIジョブをキャンセルする機能などが追加されています。

dbt-utilsのチートシート

Datacoves社より、dbt-utilsのチートシートが出ていました。

dbt-utilsで実行できるテストやマクロは非常に多くあるため、どんなものがあるかをざっと知りたいときに便利だと思います。

Data Application

Streamlit

任意のファイルをPandas DataframeとしてロードしLangChainとOpenAIで実装されたチャットボットで分析できるアプリの実装例

ExcelでもCSVでもPandas Dataframeとしてロードし、LangChainとOpenAIで実装されたチャットボットでロードしたデータについて自然言語で分析できるアプリの実装例が、Streamlitの公式ブログとして出ていました。

Business Intelligence

Tableau

特定のボタンを押すことで対象のグラフをズームアップする方法

phData社より、特定のボタンを押すことで対象のグラフをズームアップする方法を述べた記事が出ていました。

リンク先のGifを見ると、Tableau経験者ほど「こんなことできるの!?」とびっくりすると思いますw

ThoughtSpot

Google Workspacesとの連携機能をいくつか発表

Next'23の開催に併せて、Google Workspacesとの連携機能をいくつか発表していました。

  • ThoughtSpot for Connected Sheets
    • スプレッドシートから、ThoughtSpotを介してBigQuery上のテーブルを参照してカラム選択して集計結果を出力可能に
  • スプレッドシート用のThoughtSpot Analyticsの最新Verが公開 ※ThoughtSpotユーザーじゃなくても、誰でも無料で使用可能!
    • スプレッドシート上のデータを用いて可視化可能
    • 使い方やどんなことができるかの詳細はこちらの記事をご覧ください。
  • ThoughtSpot Connected Slides
    • BigQueryからデータを取得してすぐにスライドにグラフを入れることが可能

Data Catalog

Quollio

Quollio Data Catalogを拡張しQuollio Data Intelligence Cloudとしてリデザインすることを発表

Quollio Technologies社が提供するデータカタログQuollio Data Catalogについて、機能拡張しQuollio Data Intelligence Cloudとしてリデザインすることを発表しました。

下記の記事からの引用ですが、”データをただの情報として処理するのではなく、メタデータなど関連情報も含めて総合的にとらえることで、目的に沿った有益な情報へと整理する「データインテリジェンス」の考え方に着目”、"データ資産に纏わる、データ活用をする上での重要情報であるメタデータを一元管理し、企業のデータ活用・データガバナンスの活動を根本から支えます"、とあるため、従来のデータカタログよりも広義にデータ活用を支えるためのプラットフォームとして発展していきそうですね。

また、Quollio Technologies社のCEOより「データインテリジェンス」についての動向をまとめた記事も投稿されております。Atlan社が提唱したActive Metadataとの違いについてもわかりやすく述べている、参考になると思います。

Secoda

AlationとSecodaの比較記事

Secoda社による記事ですが、AlationとSecodaの比較記事が出ていました。

Secoda社の記事ということに注意は必要ですが、Gitでのバージョン管理機能やAI機能などSecodaだけが持つ機能はどういったものかを知るには良い記事だと思います。

Data Activation (Reverse ETL)

Hightouch

イベントデータの収集を行う「Hightouch Events」を発表

Hightouchが新機能として、イベントデータの収集を行う「Hightouch Events」を発表しました。まだ詳細はわかっていないですが、Hightouchを用いてDWHへ直接イベントデータを取り込むことができる新機能のようです。

下記の記事を読んでの私の理解ですが、背景としてはイベントデータの収集のためにCDPを使っている企業が多く、それらの企業がDWHをSSoTとしたCDP=Composable CDPにより移行しやすくするための新機能と理解しています。

個人的には、これまでHightouchはReverse ETLやCustomer Studioを用いたセグメント分けなど「DWHにデータが入ってから」の機能に特化していた印象なのですが、今回の新機能は「データの取得」というところで、この領域に手を出すのか!と驚いていますw

Data Quality・Data Observability

Datafold

Datafold Cloudに関する解説記事

Datafold Cloudに関する解説記事が出ていました。Cloudならば、レコードレベルで異なる可能性のあるレコードを確認したり、CIによる差分分析、BIツールまで含めたカラムレベルのリネージ、ということができるようです。

OSS版としてdata-diffもありますが、その違いについては別の記事が参考になりますので、こちらもご覧ください。