[2023年5月24日号]個人的に気になったModern Data Stack情報まとめ

2023.05.24

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Enterprise Tech 30(2023)が公開

Wing社によって取りまとめられ、ベンチャーキャピタリスト96名と各企業の開発責任者30名により評価されたテック企業の一覧として「Enterprise Tech 30」がありますが、この2023年版が公開されました。

Modern Data Stack界隈だと、dbt Labs社、Hightouch社、Hex社、MotherDuck社、Databricks社が選出されていました。

A Decade In Data Engineering - What Has Changed?

SeattleDataGuyさんにより、現在は一般的な用語となってきている「データエンジニアリング」について、この10年の変遷をまとめた記事が出ていました。

Hadoopをきっかけにビッグデータを活用するためのデータエンジニアリングの技術領域が広まり、クラウド型のデータウェアハウスの台頭、Modern Data Stackの流行、そしてこれから、と言った流れでこの10年ほどのデータエンジニアリングの潮流を理解することが出来ますので、ぜひご一読ください。

Azureの各種データ関係のサービスを統合したプラットフォームを「Microsoft Fabric」として発表

Microsoft社が、DWH・データ収集&変換・AI・BIなどのデータ基盤にまつわる各機能を統合したプラットフォームを「Microsoft Fabric」として発表しました。

個人的には、下記のリンク先の記事で「Fabric treats Delta on top of Parquet files as a native data format that is the default for all workloads.」と書かれていたため、Microsoft FabricはDelta Lakeを用いたデータレイクハウスのアーキテクチャになっていくのかな、と感じました。

You Don't Need Data Domains... Yet

Castor社が自社ブログで、「Data Meshの考えを採用する際、データドメインを分けることから始めず、チームやデータソースごとに分けることから考えても良いのでは」という持論をまとめた記事を出していました。

この記事上では、初期段階ではチーム毎やデータソース毎などシンプルな形で分散してデータを管理していき、企業が成長して複数のチームやデータソースが関わってくるデータの活用方法が増えてきたときに、ドメインとして切り出して管理するべき、と述べられています。

Data Meshはざっくり言うと、ドメインごとにデータを管理する非中央集権型のデータ基盤を構築する考え方ですが、私個人としてはこのCastor社の記事の考えに同意で、データを分散して管理したいならばまずはシンプルな形で進めていくのが良いと思います。

Top 5 Open Source Data Lineage Tools (With User Reviews)

Monte Carlo社より、データリネージを生成するためのOSSツールがまとめられた記事が出ていました。

データ基盤が複雑化することで、テーブルやダッシュボードがどう紐づいているのかを知りたいケースは多いと思いますが、そんなときの参考になると思います。

Data Extract/Load

Fivetran

BigQuery Connectorがリリース

まだBETAではありますが、BigQuery上のデータを別のDestinationに転送できるBigQuery Connectorが提供開始されました。

GA4の生データやFirebaseのデータなど、BigQueryじゃないと取得できないデータもあるため、そのデータを別のDBやDWHに転送したい場合には便利だと思います。

Airbyte

ノーコードでAirbyteのコネクタを開発できる「Connector Builder」を発表

任意のAPIを実行してデータを取得しDB・DWHにロードできるコネクタをノーコードで作成できる「Connector Bulider」をAirbyteが発表しました。

FivetranはLite Connectorと言うかたちでFivetran側でユーザーの要望を聞いてコネクタを開発するスタンスを取っているため、双方でアプローチが違くて興味深いです。

Data Warehouse/Data Lakehouse

全般

Airbyte社によるSnowflakeとBigQueryの比較記事

先月はSnowflakeとRedshiftの比較記事が投稿されていましたが、今月はSnowflakeとBigQueryの比較記事が投稿されていました。

こちらの記事では述べられていない点として、BigQueryは従来のオンデマンドプランに加えて、Slotの稼働時間で計算され、契約エディションにより機能も異なる料金体系を発表したため、こちらの情報もウォッチすると良いと思います。

Snowflake

2023年4月にリリースされた新機能・マーケットプレイスのデータのまとめ記事

Snowflake社の公式ブログにおいて、2023年4月にリリースされた新機能とマーケットプレイスのデータをまとめた記事が公開されました。

特にマーケットプレイスで新しく公開されたデータを確認するのに便利な記事だと思いますので、どのような企業がどんなデータを公開し始めたのか知りたい場合には、ぜひ下記のリンク先よりご覧ください。

Snowflake Extension for Visual Studio Codeがver1.0.0となりGA

SnowflakeのVisual Studio Code(VS Code)用のExtensionが、ver1.0.0となりGAとなりました!

下記のドキュメントにインストール手順や使い方もまとまっていますので、参考にしてみてください。

今後2023_06のバンドルでSnowsightがデフォルトUIとなることが明らかに

下記の記事でこのような記述があり、2023_06のバンドルからSnowsightがデフォルトUIとなり、Classic Consoleが使えなくなることが明らかになりました。

When the 2023_06 bundle is available, Snowsight will be generally enabled as the default interface for affected users and accounts. At this point, you will not be able to disable the change.

特にPrivate Connectivityを介してSnowflakeのClassic Consoleにログインしている方は、Snowsight用のDNSなどの設定を行わないと、2023_06のバンドルが適用されたタイミングで急にSnowflakeのUIにログインできなくなってしまう可能性もあります。Business Criticalプランを契約中で、該当する方はご注意ください。

Data Council 2023でSELECT社が発表したSnowflakeのコストとパフォーマンスの最適化について

SELECT社が、Data Council 2023でSnowflakeのコストとパフォーマンスの最適化について発表されていました。

その時の登壇資料と録画が公開されています。

BigQuery

GCSに保存された非構造化データのメタデータを保持する「object tables」がGA

Google Cloud Storageに保存された非構造化データのメタデータを保持する「object tables」がGAとなりました。

非構造化データに関するメタデータに対してそのままクエリを実行したり、BigQuery MLの学習や推論に用いたり、ということが可能です。

Databricks

Databricks社がデータガバナンスプラットフォームを提供するOkera社を買収

2023年5月3日の発表なので少し前ですが、Databricks社がデータガバナンスプラットフォームを提供するOkera社を買収することを発表しました。

Okeraは元々、AIを用いた個人情報の自動分類機能や、ユーザーへのデータアクセスポリシーを提供するプラットフォームであったため、今後Databricksのデータガバナンス周りの機能がより強化されることが見込まれますね。

Databricks SQL ServerlessがGAに

Databricks SQL ServerlessがGAになりました!

SQL warehouseという名称のコンピュートリソースを、下図のようにGUIベースで操作するだけで起動できるようです。

DuckDB

DuckDB 0.8.0がリリース

DuckDBの最新バージョン、0.80がリリースされました!

Data Transform

dbt

dbtvaultが「AutomateDV」に名称変更

Data Vault 2.0のモデリングをdbtを介して宣言的な記述で行えるdbt packageとしてdbtvaultがありますが、このdbtvaultが「AutomateDV」に名称変更しました。

リポジトリとしては「automate-dv」となっていますので、すでにdbtvaultをお使いだった方はご注意ください。

Count社が自社製品上でdbtのガイドを公開

キャンバス上で自由にデータを操作・分析できるツールとしてCountがありますが、このCount社が自社製品上で「The ultimate guide to dbt」というdbtのガイドを公開しました。

各機能の使い方だけでなく、プロジェクト構成に関するプラクティスや、おすすめのdbt package、Jinjaのチートシートなど、内容は盛り沢山です!

Business Intelligence

Looker

Looker 23.8の発表

Lookerの最新バージョン23.8が発表されました!5月末にかけてアップデートが行われます。

今回のアップデートは細かな機能追加やバグ修正がメインとなっています。

Lookerのコンテンツ管理用のOSS「Gazer」が非推奨に

Lookerでダッシュボードなどのコンテンツを管理するOSSとして「Gazer」が提供されていましたが、Twitterで情報が流れていてふとGazerのリポジトリを見たところ、下記のような記述がありました。

This project is on a path towards deprecation in favor of (Looker Deployer)[https://github.com/looker-open-source/looker_deployer]. New users should start with Looker Deployer if possible.
※DeepL翻訳
このプロジェクトは、Looker Deployerを優先して非推奨の方向に進んでいます。新しいユーザーは、可能であれば Looker Deployer から始めるべきです。

そのため、現在はLookerのコンテンツ管理にはLooker Deployerが推奨されているようです。

Looker Deployerは下記のリポジトリから使用できます。

私が一度検証したブログもありますので、参考になると幸いです。

Tableau

Tableau Conference 2023のまとめ記事

Salesforce社でTableauのプリセールスをされている@rsugimura17さんにより、Tableau Conference 2023のKeynote、Devs on Stageの内容をまとめた記事が投稿されていました。

Keynoteで発表された各新機能だけでなく、Tableauの開発チームによるプレゼンテーション「Devs On Stage」の内容もまとまっており、Tableau Conference 2023で発表された情報を知るには最適な記事だと思います。

How to do Cool Stuff in Tableau - 2023の内容まとめ

Moxy Analytics社でコンサルタントをされているKen FlerlageさんとKevin Flerlageさんにより、Tableau Conference 2023で「How to do Cool Stuff in Tableau - 2023」というタイトルで登壇された際の、セッションに使用したTableauワークブックや関連資料が公開されました。

よりTableauで効果的かつわかりやすいワークブックを作成するために良い情報が詰まっているため、ぜひご覧ください。

Power BI

Copilot in Power BIを発表

Microsoft社が、自然言語で欲しいダッシュボードの内容を伝えたら自動でダッシュボードを作成してくれる「Copilot in Power Bi」を発表しました。

以下の動画を見るとすぐにわかるのですが、ただグラフを作るだけでなくてそのまま使えそうな形で見やすいダッシュボードを構築してくれます。

ここまで出来てしまうと、自然言語でダッシュボードを構築出来るのは当たり前の時代になりそうなので、如何にBIツール側にデータの構造や各指標の定義を学習させるか、ということが鍵になってきそうですね…

Data Catalog

Atlan

「Atlan AI」を発表

Atlan社が自社の提供するデータカタログにAI機能を実装し、Atlan AIとして提供することを発表しました。 これまでもTrident AIというAI関連の機能を発表していたのですが、機能を拡充しAtlan AIと名称変更しての提供となるようです。

以下のURLから、Atlan AIのwaitlistへの登録と、アニメーション付きでAtlan AIでどんな事ができるかが確認できるため、気になる方はぜひご覧ください。

Elastic社によるAtlan導入事例

Elastic社によるAtlan導入事例記事が公開されていました。

特に、以下のことがAtlanを導入したことで出来るようになったようです。

  • Chrome拡張機能を使用してTableauのダッシュボードからAtlan上に登録されたメタデータを確認
  • パイプラインが破損したときに下流のダッシュボードまでの影響範囲がわかるようになり問題がある場合はユーザーに対して警告を出す
  • Atlan内でよく使用されているテーブルの情報を得られるため、新規ユーザーであっても使うべきテーブルやカラムがすぐにわかるように

Data Activation (Reverse ETL)

Census

Censusに対応したdbt macroを持つpackage「dbt_census_utils」をリリース

Census社が、Data Activation用途にデータ変換するためのdbtのmacroをまとめたdbt packageを「dbt_census_utils」をリリースしました。

国コードから国名に変換したり、メールアドレスなどの情報から配信対象外としたい社内の関係者を識別したり、Data Activationを行う際に役立つ処理が多く含まれているpackageです!

Snowflake Partner ConnectにCensusが追加

Snowflakeからサードパーティのサービスをすぐに連携したりトライアルすることができる、Snowflake Partner ConnectにCensusが追加されました!

下記の記事に手順も記載されています。

Data Quality・Data Observability

Monte Carlo

PostgreSQL、MySQL、Microsoft SQL ServerにMonte Carloが対応

Monte CarloがPostgreSQL、MySQL、Microsoft SQL Serverに対応し、トランザクションデータベースでもMonte Carloを用いた観測ができるようになりました。

Monte CarloとGitHubの連携機能を発表

Monte CarloがGitHubとの連携機能を発表し、GitHub上でPull Request発行時に下流のどのdbtモデルへ影響があるか、わかるようになりました。

また、Monte Carlo上で確認した実際に発生しているIncidentを元に、そのIncidentに紐づくPull Requestを確認することも出来るようです。

Data Orchestration

Dagster

Airflow・Prefectとの比較含めたDagsterについての紹介記事

akira @ DataMarketさんにより、Dagsterに関する紹介記事が投稿されました。

こちらの記事では、よく比較対象にあがるAirflowとPrefectとの比較を含め、Dagsterが各データ関係の職種の方に対してどのように役立つのか、広い視点でDagsterについて紹介されております。

個人的にも、Dagster CloudのStandardプランはジョブが実行している間だけの従量課金だったり、dbtの各ModelやTestの依存関係を自動で解析し表示してくれたり、注目しているオーケストレーションサービスです!