[2023年10月11日号]個人的に気になったModern Data Stack情報まとめ

2023.10.11

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Building a Data Stack Aligned With Your Business Needs

CastorDoc社より、どのようにビジネスニーズにあったData Stack(データ基盤)を構築するか、について述べられた記事が出ていました。

個人的に、この記事で述べられているData Stackのユースケースである「Analytics」「Automation」「Data Products」という3つの分類が、今のデータ基盤の使われ方を端的に表していると感じて気に入りました。

Data Warehouse/Data Lakehouse

Snowflake

アカウントレベルまたは任意のオブジェクトグループに対してクレジットの予実管理ができるBudgets機能をリリース

2023年6月のリリースでも発表されていたBudgets機能が、とうとうリリースされました。(パブリックプレビュー)

これまでもSnowflakeにはリソースモニター機能はありましたが、より細かくデータベース・スキーマ・テーブル・ウェアハウスを1つのオブジェクトグループとしてまとめてCustom Budgetsを定義できたりと、より詳細なクレジットの予実管理が可能となります。

BigQuery

BigQueryのリージョン間テーブルコピーがPrivate Previewに

BigQueryのリージョン間テーブルコピーがPrivate Previewになりました。

これまでは同一リージョン内でしかテーブルをコピーできなかったのですが、この機能があれば複数リージョンでの運用もかなり楽になると思います!

BigQueryの制約を用いたクエリ最適化について

BigQueryでは強制されない主キーと外部キーをサポートしていますが、これらの制約を設定することで、条件を満たしたときに該当するJOIN処理をなくすことができる実例について述べた記事が出ていました。

注意点としては、これらの制約は強制されないため、実際のデータは制約を満たしていないのに制約を適用していると意図せぬ結果がクエリを実行したときに返ってくる可能性があることだけ、ご注意ください。

MotherDuck/DuckDB

MotherDuck社がSeries Bで5250万USDの資金調達を実施

2023年9月20日の記事ではあるのですが、MotherDuck社がSeries Bで5250万USDの資金調達を実施したことを発表しました。これで資金調達の合計額が1億USDを超えたとのことです。

MotherDuckの根幹であるOSSのDuckDBはまだ0.9.0のリリースですが、ここまで資金調達が行えているのはグローバルでの注目度と期待が高まっているのを感じますね。

Data Transform

dbt

MetricFlow統合前のdbt MetricsとSemantic Layerのサポート終了について

dbt Labs社の方よりメールでMetricFlow統合前のdbt MetricsとSemantic Layerのサポート終了について連絡がありました。

  • 2023年12月15日にMetricFlow統合前のSemantic Layerのサポートを完了
  • MetricFlow統合前のdbt_metricsパッケージのサポートの廃止(2023年7月下旬のdbt-core 1.6のリリース時に廃止)

もし、まだ移行されていない方がいましたらMigration guideもありますので、こちらを参考にしてください。

Tableauに関するdbtとの依存関係をexposureとして出力するスクリプト

syou6162さんにより、dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureとして出力するスクリプトと、その内容に関して説明されたブログが公開されました。

dbtで作られるドキュメント上でTableauとの依存関係まで確認したい場合には非常に役立つスクリプトだと思います!これはすごいです。

dbt Cloudのジョブで、失敗した時点からのRetryが可能に

これまでdbt Cloudでは失敗した時点のコマンドからのRetryが不可能でしたが、ジョブの画面から簡単にRetryができるようになりました。

下記の公式DocがGifもあってわかりやすいため、ぜひこちらをご覧ください。

dbt Cloudで「dbt Explorer」がBeta版として提供開始

dbt Cloudにて、対象のプロジェクト内の各種リソースを包括的に検索できる機能として「dbt Explorer」がBeta版として提供開始となりました。

これまでもDocsやリネージをdbt Cloud上で見ることはできましたが、Models、Metrics、Sources、Tests、Snapshots、などdbtの各種オブジェクトごとに検索もできそうです。

まだBeta版のためすぐに使うことができないのですが、どういったものか気になる方はぜひ下記の公式Docをご覧ください。

dbt Cloud APIに関する入門記事

phData社より、dbt Cloud APIに関する入門記事が出ていました。

ジョブのトリガー、アーティファクトの取得、などよく使いそうなAPIコマンドについて解説されています。

Semantic Layer

Cube

CubeでPythonとJinjaを導入し、dbtのModelを参照できるように

Cubeが新しいdbtとの連携機能を発表し、Cube上でPythonとJinjaを使って、Cubeの定義時にdbtのModelを参照できるようになりました。

LookerからCubeに移行するためのツール

Cube社よりLookerで定義されたLookMLのモデルからCubeのモデルへ変換するためのツールであるlkml2cubeがリリースされました。

OSSとして公開されているため、気になる方は下記のリポジトリをご覧ください。(私もちゃんとは見ていないですが、LookML特有の派生テーブルやLiquidなどを用いた定義がどう変換されるのかは気になっています。)

Data Application

Streamlit

JSONの構造を理解できる「JSON Data Profiler」アプリ

「JSON Data Profiler」という、JSONの構造を可視化して理解できるStreamlitアプリケーションが公開されていました。

実際に下記のブログの最下部のリンクから試すこともできますので、気になる方はぜひお試しください。

Business Intelligence

Tableau

Tableauのアップデート頻度が年4回→年3回に変更

Tableauはこれまで製品アップデートを年4回行ってきましたが、今後は年3回となるようです。

直近では2023.3が2023年最後のリリースとなり、次のアップデートは2024.1が2024年にリリースされるとのことです。

Notebook

Hex

Hex 3.0の発表

Hexの新しいメジャーバージョンとなる3.0が発表されました。主な新機能は以下となります。

  • AI関係の機能強化(自動グラフ、洞察含むレポート作成)
  • dbt DocsやDWHのメタデータ取得して上述のAI機能に活かせる
  • 分析する際のフィルターやExploreの機能強化(より直感的になった印象、特にExploreはBIツールっぽさもある)
  • 描写速度などパフォーマンスの向上
  • Python Dataframeを用いた処理の、Databricks、BigQuery、Snowflakeへのプッシュダウン

Data Catalog

Atlan

スプレッドシートと連携し、スプレッドシートからAtlan上のメタデータを更新できる機能を発表

Atlanが、GoogleスプレッドシードでAtlan上の各テーブルのカラムごとのメタデータを更新できる機能を発表しました。

こちらの公式Docから実際の画面を使った操作体験もできるので、ぜひお試しください。

CastorDoc

CastorDocログイン時によりビジネスユーザー向けのInsightsモードに切り替えられるように

詳細が明らかになっていないのですが、CastorDocがログイン時にビジネスユーザー向けのInsightsモードに切り替えられる機能を発表しました。従来のUIはExpertモードとして提供されるようです。

個人的にも、閲覧のみのビジネスユーザー向けにはInsightsモードでUIをシンプルにした画面が提供されるようになると、データカタログを閲覧するときに迷いがなくてよいなと感じています。

Data Activation (Reverse ETL)

Hightouch

Hightouch Eventsが一般提供

Hightouchでイベントデータの収集を行える「Hightouch Events」がGAになったと、Xで投稿がありました。

ドキュメントを見ると、イベントデータ収集用のSDKはJavaScript、Node.js、Rubyで用意されているみたいです。

これにあわせてか、Snowflake社のブログでもHightouch Eventsを用いたCustomer 360の構築に関する記事が出ています。こちらも併せてご覧ください。

Hightouch上でのSyncの状況やユーザーの操作を一元監視できる「Workspace activity」機能がリリース

Hightouch上でのSyncの状況やユーザーの操作を一元監視できる「Workspace activity」機能がリリースされました。

簡単ですが、私も試してブログに内容をまとめています。クリックしたときに詳細を確認できたり対象のオブジェクトにリンクできたりと、使い勝手は良いです!

Data Quality・Data Observability

Monte Carlo

OSSのObservability製品とMonte Carloとの比較

Monte Carlo社より、OSSのObservability製品(ここではGreat Expectations)とMonte Carloを比較したときに、どのような違いがあるかをまとめた記事が出ていました。

Monte Carlo社の記事のため内容に注意は必要ですが、Great Expectationsとの違いとして「機械学習を用いた”Nullの割合の異常検知”や”テーブルの行数変化の異常検知”など、未知の問題を先に検知し対処に動ける」というところはMonte Carloの良さとして挙げられると感じました。

Data Orchestration

Dagster

Dagster Ver1.5がリリース

DagsterのVer1.5がリリースされました。

1つ1つのAssetに対してNULLがないかなどの簡易的なチェックを行えるAsset Checksや、所要時間やリソースの使用状況をモニタリングできるDagster Insightsについては別の記事でより詳細に解説がされています。

Airflow

Astronomer社のCosmosを用いてdbt DAGをデプロイする事例

以前投稿したMDSまとめブログでもご紹介した、Airflowに対してdbtのモデルを各タスクに分解してDAGを構成できるCosmosを活用したブログ記事が出ていました。

Airflow×dbtで基盤を構築している方には刺さるOSSだと思いますので、ぜひ検討してみてください。

Mage

OpenAIのAPIを用いて自然言語でパイプラインの作成ができるように

まだBeta機能ではありますが、MageがOpenAIのAPIを用いて自然言語でパイプラインの作成ができる機能を提供しています。

下記の記事で具体的な手順とスクリーンショットが載っているため、気になる方はぜひご覧ください。

Data Mesh

Nextdata

Nextdata社が1200万USDの資金調達を発表

Data Meshの考えの創始者と言われているZhamak氏が創業したNextdata社が1200万USDの資金調達を行ったことを発表しました。

まだ具体的なプロダクトの全貌は見えていないのですが、どのようなプロダクトとなるのか楽しみです!