[2024年2月21日号]個人的に気になったModern Data Stack情報まとめ

2024.02.21

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Navigating the Data Engineering Landscape in 2024

Airbyte社のブログにおいて、データエンジニアリングにおける2024年の展望について5つに分けてまとめた記事が出ていました。

大きく、以下5つについて述べられていました。

  • データエンジニアは生成AIを使うだけでなく、組織のニーズに合わせてベクトルデータベースや非構造化データなど組織の生成AIのニーズに対処するための知識も必要になってくるだろう
  • IaC・DevOpsを始めとするデータエンジニアリング分野とソフトウェアエンジニアリング分野の重複・統合が進んでいくだろう
  • Modern Data Stackは成熟に向かっており、該当する各ツールは各カテゴリの中で価値のあるツールのみ残っていくだろう
  • データレイクハウスアーキテクチャの採用が増加するだろう
  • データメッシュの考えを採用する企業が大規模な組織を中心に増加するだろう

Building a Data Platform in 2024

2021年頃と比較してデータ基盤を構成する各要素はどのように変わってきたのかをまとめた記事が、「Building a Data Platform in 2024」というタイトルで記事が出ていました。

Integration、Data Store、Transformation、Orchestration、Presentation、Transportation、Observabilityという各分野で2021年頃と比較してどのように変わってきているのか・変わっていないのかがよくまとまっている記事ですので、参考になると思います。

MarTech Stackに関する解説記事

Hightouch社のブログにおいて、「What is a MarTech Stack (and How to Build One)?」という記事が出ていました。

MarTech Stackという言葉は初耳でしたが、どのようなカテゴリのツール郡で構成されるかが解説されているため、個人的に参考になりました。

Master Data Managementに関する解説記事

Census社のブログにおいて、Master Data Managementに関する解説記事が出ていました。

大本のマスターデータの管理ができていないと上手くデータ活用ができないというのはあるあるだと思いますので、その対策としてのMaster Data Managementの取っ掛かりとしても参考になる記事だと思います。

Is the "Modern Data Stack" Still a Useful Idea?

dbt Labs社のCEO兼Co-founderであるTristan氏により、「Is the "Modern Data Stack" Still a Useful Idea?」というタイトルで「Modern Data Stackという概念はもう有用ではない」という考えをまとめた記事を出していました。

記事からの引用ですが、MDSの考えが出始めた2016年頃は「クラウドをベースとした技術・製品」というMDSの強みがあったが、Tableauを始め、殆どの製品がクラウド対応をしている今はMDSという考えが陳腐化しつつあること、などが理由のようです。

一方で、dbtもFivetranもLookerも主要なAnalytics Stackであるとも述べているため、これまでもそうでしたが改めてModern Data Stackという用語に縛られずに自社に合った良い製品を選定していくことが良いのだろうな、と感じました。

(このまとめブログのタイトルにもまだModern Data Stackとありますが、弊社ではまだ当面はModern Data Stackというソリューション名で頑張っていきますw)

Data Warehouse/Data Lakehouse

Snowflake

データクリーンルームの提供時に役立つAggregation policiesとProjection policiesのリリース ※パブリックプレビュー

Snowflakeの新機能として、Aggregation policiesとProjection policiesがリリースされました。

  • Aggregation policies
    • ポリシーを適用したテーブルに対しクエリを実行する際は、GROUP BYを必須としたり、GROUP BY後の集計値にも条件を設定してその条件に反する場合には結果を返さない、ということが出来る
  • Projection policies
    • テーブル上のカラムに適用するポリシーで、ポリシーを適用するとそのカラムを表示するクエリが実行されたときに結果を返さない、ということが出来る

この機能によりSnowflakeを用いたデータクリーンルームの提供が以前に比べとても簡単になりました!(以前の方法は行アクセスポリシーを使って特定のSQLを許可する、という仕様だったので正直かなり大変でした…)

この新機能を用いたデータクリーンルームの実装・利用イメージについては下記のブログがとても参考になります。

SELECT社によるSnowflakeのプラクティスをまとめた記事が多くリリース

SELECT社は定期的にSnowflakeのプラクティスをまとめた記事をリリースしていますが、この2週間の間に5つの記事の投稿がありました。

私もまだすべての記事を読み切れていないのですが、取り急ぎリンク先だけ記載しておきます。

Snowsightの画面左のメニュー項目が刷新

Snowsightの画面左に位置するメニュー項目が刷新されました。具体的には下図のように変更されています。

以前のメニュー項目との違いについては、下記の公式Docにわかりやすくまとまっています。こちらも併せてご覧ください。

BigQuery

Geminiを用いた生成AI機能がGA

BigQueryで、Geminiを用いた生成AI機能がGAとなりました。

  • gemini-proを用いたremote modelの作成
  • ML.GENERATE_TEXT関数でgemini-proを用いてBigQueryのテーブルに格納されたテキストに対して自然言語で問い合わせし結果を得る
  • bigframes.ml.llmモジュールのBigQuery DataFrames GeminiTextGeneratorを使用して、Geminiテキスト生成モデルを作成

Data Transform

dbt

dbt Explorerの新機能・開発中の機能についての紹介記事

dbt Labs社のブログにおいて、dbt Explorerの新機能・開発中の機能についての紹介記事が出ていました。

特に熱いと感じたのが、Column-level Lineageですね!

他にも開発中の機能として、descriptionでの検索機能、開発中のdbt projectの内容でdbt Explorerを表示、などの機能があるようです。こちらも楽しみですね。

dbt CloudのEnvironmentで最新バージョンを常に維持する機能を発表

dbt CloudのEnvironmentでは、使用するdbtのバージョンを事前に指定する必要があり、定期的にEnvironmentのバージョンを上げる必要がありましたが、このEnvironmentにおけるバージョンを自動で最新のものを使い続けることができる機能が発表されました。

まだBeta版の機能で徐々に各顧客に展開されるようですが、dbtのバージョン管理から開放されると考えると嬉しいですね。ただ一つ懸念としては、マイナーバージョンのアップデートでもdbtコマンドのオプションの指定方法が変わることがあるので、それでも問題なく動くのかどうか…というところが気になっています。

dbt Cloudで別のジョブの完了をトリガーにジョブを実行できる機能をリリース

dbt Cloudで、別のジョブが完了をトリガーにジョブを実行できる機能がリリースされました。

下図は実際に私の検証画面で試したものですが、他のdbt projectのジョブであっても指定が可能ですので、dbt Meshのように複数のdbt projectを管理しているときのジョブ管理にも役立ちそうです。

SDF

SDFのData Classification機能についての説明記事

SDFが最上位に位置するテーブル以外のテーブルに対する、テーブルレベル・カラムレベルのData Classification機能について解説した記事を出していました。

Data Classificationというとふわっとしていますが、この記事では「上位のテーブル・カラムで定義されたPIIなどを定義するタグなど、データに対する説明情報を付与すること」をData Classificationとしています。個人的には「メタデータの付与」と言っても良いと思います。

下図は記事からの引用ですが実際の製品画像を見ると、リネージ上でどのカラムからどの分類が引き継がれているかがわかる仕様となっているようです。

より詳しくは、以下の記事をご覧ください。

Business Intelligence

Looker

Looker 24.2のリリースノートが公開

Looker 24.2のリリースノートが公開されました。

前日のイベント「Looker Vision, Strategy, and Roadmap for 2024」で発表された機能の追加はまだのようですね。

Data Catalog

Atlan

Atlan AIがすべての顧客へプレビュー開始

他のデータカタログ製品と比べて早い段階でAI機能を発表していたAtlanですが、この度すべての顧客向けにAI機能である「Atlan AI」がプレビューとなったようです。

Atlan AI自体については、下記のYouTubeの動画などが参考になると思います。

OpenMetadata

Ver 1.3がリリース

OpenMetadataの最新バージョンとしてVer 1.3がリリースされました。

リネージのUIやフィルタリング機能の更新、スキーマ変更などのアラート設定、Alationからのメタデータ移行機能、用語集のローカリゼーションなどの機能が発表されています。

Data Activation (Reverse ETL)

Hightouch

収集したイベントデータを直接Destinationに転送できる「Event Streaming」を発表

Hightouchの新機能として、収集したイベントデータを直接Destinationに転送できる「Event Streaming」が発表されました。

Reverse ETLとStreaming Reverse ETLとの違いは、上述の記事から引用したこの図が参考になると思います。Event StreamingではDWHを介さず直接Destinationに転送するのがポイントです。