[2023年7月5日号]個人的に気になったModern Data Stack情報まとめ

2023.07.05

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

デジタル庁のデータ分析基盤「sukuna」に関する記事

デジタル庁のデータ分析基盤である「sukuna」について、採用している技術やアーキテクチャが記載された記事が公開されていました。

記事では、基盤構築を行っている部署の業務やミッション、データ基盤に関する機能要件・非機能要件に関する情報がまとめられています。

Monte Carlo社によるSnowflake Summit 2023と2023 Data + AI Summitのまとめ記事

Monte Carlo社のブログにおいて、Snowflakeの年次イベントである「Snowflake Summit 2023」と、Databricksの年次イベントである「2023 Data + AI Summit」の内容を1つの記事にまとめたものが投稿されていました。

各Summitのまとめだけでなく、各製品でGenerative AI・データアプリ・データ共有でどのような動きをしているかを比較して記述した文章もあるため、すでにどちらのSummitの内容も知っている方にも参考になる観点が多い記事だと思います。

Data Extract/Load

Fivetran

スキーマ変更時の制御と通知機能が追加

Fivetranでデータロードを行う際、スキーマ変更を検知したときにその変更をロード先のテーブルに適用するかどうか制御できるようになり、さらにスキーマ変更時に通知を送ることができるようになりました!

実際には、下図のような画面操作で設定が可能です。詳細はこちらの公式Docにまとまっていますので、ぜひご覧ください。

Airbyte

SnowflakeのNative AppsにAirbyteが対応

AirbyteがSnowflakeのNative Appsに対応し、Snowflake MarketplaceからAirbyteから利用可能になることを発表しました。

まずはLinkedin Adsのデータについて対応し、今後は数十のデータソースにも対応するとのことで、Airbyteを用いたデータパイプラインの構築がSnowflake上でNative Appsを介して簡単に行えるようになる見込みです。

Data Warehouse/Data Lakehouse

Snowflake

Snowflake Summit 2023開催に伴う数多くの発表

現地時間2023年6月26日~6月29日に、Snowflake Summit 2023が開催されました。

本当に多くの情報が発表されましたが、下記の記事がSummitで発表された新機能について非常によくまとめられています!

手前味噌ですが、私もOpening Keynoteについては以下の記事でまとめております。こちらもぜひご覧ください!

Databricks

年次イベントである「2023 Data + AI Summit」で多くの機能を発表

Databricks社が年次で行っている「2023 Data + AI Summit」で数多くの機能が発表されました。

  • 英語の文章を引数に入れるだけでデータフレームの作成やチャートの作成ができる新機能

  • Delta Lake 3.0の発表

  • 自然言語でクエリを記述したりデータの検索などができる「LakehouseIQ」の発表

またMonte Carlo社のブログでも、Keynoteの内容をまとめたレポートも出していました。こちらも参考になると思います。

DuckDB/MotherDuck

DuckDBをベースとしたローカル・クラウドでハイブリッドに分析が可能なプラットフォーム「MotherDuck」を発表

DuckDBの開発会社であるMotherDuck社が、DuckDBをベースとし、ローカルとクラウドでハイブリッドにクエリを実行できるサーバーレス分析プラットフォームとして、MotherDuckを発表しました。

ローカルからでも、ローカルにあるファイル・MotherDuck上に登録したテーブル・S3上のファイルなど保存先に関係なくJOINができるようなプラットフォームとなっているようです。

個人的な感想として、ローカルとクラウドでハイブリッドにクエリを発行できるプラットフォームは初めてなので製品コンセプト的には非常に興味深いと感じる一方で、ローカル環境のデータという各ユーザーが持つデータも併せて自由にクエリされる環境となるのでデータガバナンスをどうやって保っていくかも気になりました。いずれにせよ、今後のアップデートにも期待したい製品です!

Data Transform

dbt

MetricFlow統合後のdbt Semantic Layerに関する最新情報

MetricFlow統合後のdbt Semantic Layerに関して、いくつか情報が出ていました。

まず下記の記事では、新しいdbt Semantic Layerの基本構成要素となるsemantic_modelとmetricsについての説明と、今後の展望について述べられています。特に、今後の展望として「That in turn will be followed later this year by partner integrations to allow you to access those metrics in spreadsheets, notebooks, BI tools and so many more places where we aim to bring consistency on metrics.」と述べられているため、どんなツールからどのように連携できるようになるかが今年後半にわかるはずです。とても楽しみです!

また、dbt Core 1.6のBeta版からMetricFlowを使用することができるようで、公式Docも更新されていました。

Semantic Layer

Cube

AIを活用する際のSemantic Layerの重要性

Cube社のブログより、LLMなどAIを活用する際のSemantic Layerの重要性について述べたブログが出ていました。

LLMとデータを保持するデータベースの間にSemantic Layerがあることで、データが何を意味するかのコンテキストをLLMに与えることができるため、LLMがより適切な回答を返すことが可能になる、と述べられています。

Business Intelligence

全般

Lookerライクな新興BIツールの比較検討

Lookerと同じようにデータモデリングやコード管理が行えるBIツール6製品について、概要と比較を行った記事が出ていました。

個人的にも、HolisticsやMproveは恥ずかしながら名前も知らなかったので大変勉強になりました!

Tableau

年⇨四半期⇨月とドリルダウンが行える表のTableauでの作成方法

phData社により、年⇨四半期⇨月とドリルダウンが行える表のTableauでの作成方法が公開されていました。

「ここまでやるか!?」というくらいパラメータなどを駆使していますが、Tableauの技術として1つの参考になると思います。

ThoughtSpot

ThoughtSpot社がBIツール「Mode」を提供するMode Analytics社を買収

ThoughtSpot社がBIツール「Mode」を提供するMode Analytics社を買収したことを発表しました。

以下はMode Analyticsの企業ブログですが、Mode is joining forces with ThoughtSpot, merging to create a new breed of modern business intelligence (BI) platform–one that truly unites data teams and business teams.とある通り、ThoughtSpotとModeそれぞれの強みを統合したプラットフォームが開発されていくのだと思います。今後が楽しみですね!!

ThoughtSpotがGitとの連携機能を発表

ThoughtSpotがGitとの連携機能を発表しました。

この機能により、開発インスタンスではdevブランチで開発を行い、無事に開発が終わったらmainブランチにコミット・マージし、本番インスタンスではmainブランチの内容を参照する、というGitを用いたバージョン管理と環境分離が可能となります。

Preset

Presetがdbt Semantic Layerとの統合機能を発表

Presetが、dbt Cloudを介してMetricsを参照できるdbt Semantic Layerとの統合機能を発表しました。

以下の記事を見る限りは、MetricFlow統合前のdbt Semantic LayerにPresetが対応したようですが、「we’re closely monitoring the news from dbt and plan to support dbt's new semantic layer features rather than building upon the old ones.」とあるのでMetricFlow統合後のdbt Semantic Layerにも対応してくれそうです!

Notebook

Hex

Snowpark Container Servicesにより、Hex自体をSnowflakeアカウントにデプロイすることが可能に

Snowflake Summit 2023において発表されたSnowpark Container Servicesを活用して、Hex自体をユーザーのSnowflakeアカウントにデプロイできるようになることが発表されました。

これにより、以下のようなメリットを得ることが出来ます。

  • 通常のSaaSの場合に起こりうる、SaaSとSnowflake間のデータの移動が発生しない
  • Hexのデプロイ時にNVIDIA社のGPUをオプションとして構成できるため、大規模なデータセットの処理にも対応

Data Catalog

Select Star

Descriptionを自動生成してくれるAI Documentation機能を発表

Select Starが、Descriptionを自動生成してくれるAI Documentation機能を発表していました。

これでSelect Star含め、Atlan、Secoda、CastorDoc、というData Catalog 3.0と呼ばれているような製品は全てAI機能を発表したことになります!この数ヶ月で一気に来ましたね!

Select Star上でSnowflakeのコスト分析を行える機能を発表

Select Starが、Snowflakeのコスト分析を行える機能を発表しました。

日別のクエリ数と消費したクレジットをグラフの形で確認したり、どのクエリが最もクレジットを消費しているか、各ユーザー・チームごとにどれだけのクレジットを消費しているか、ということが分析できるようです。

Atlan

Atlan上で管理するメタデータの更新リクエストをSlack上でApprove・Rejectができるように

Atlan上のメタデータの更新リクエストをSlack上でApprove・Rejectできる機能が発表されました。

Atlanは元々Slackとの連携機能が豊富でSlackからメタデータの情報取得などが可能ではありましたが、承認のワークフローもSlack上で行えるようになったことで更に連携が強まりましたね。

CastorDoc

使用されていないアセットについてまとめて出力してくれる「Unused Asset Reports」を発表

CastorDocが、30日以上使用されていないテーブルやダッシュボードをまとめて出力してくれる「Unused Asset Reports」を発表しました。

データ基盤を運用する上で、一度構築したが使用されてないデータマートのテーブルやダッシュボードがでてきてしまうことはよくあることのため、定期的な整理・監査の観点でこの機能は役立つと感じました。

Data Activation (Reverse ETL)

Hightouch

開発・本番など環境を分離できる「Environments」を発表

HightouchでModelとSyncの管理環境を分離できる「Environments」を発表しました。

この機能により、開発用の環境でModelやSyncの変更を行い設定が問題ないことを確認した上で、本番用の環境にその変更を反映させることができるようになります。

Census

CensusでSnowflakeに対するModelを設定する際にSnowpark for Pythonでの記述が可能に

CensusでSnowflakeをデータソースとしたModelを設定する際に、Snowpark for Pythonでの記述ができるようになりました。実際には下図のようにエディターも用意されているようです。

これにより、SQLだけでは難しい加工を行った上でデータ変換処理をSnowpark for Pythonで行い、そのModelを用いて各アプリケーションにSyncさせるということが可能になります。

Data Orchestration

Dagster

Dagster Cloudが新しい価格体系を発表

Dagster Cloudについて、新しい価格体系が発表されました。

プランごとのベース料金、AssetのMaterializationとOpsで消費されるクレジット、サーバーレスのコンピューティングリソースの使用時間、という大きく3つの観点で課金がされる仕組みに変わったようです。

Dagster CloudのPricingのページも更新されています、こちらも併せてご覧ください。

Dagsterを用いたETLパイプライン構築のBeginners Guide

Dagsterを用いたETLパイプライン構築のBeginners Guideの記事が出ていました。

大本はDagster公式のチュートリアルを参考にしているようですが、よりDagster特有の機能がわかるようにアレンジされているとのことです。