[2024年8月21日号]個人的に気になったModern Data Stack情報まとめ

[2024年8月21日号]個人的に気になったModern Data Stack情報まとめ

Clock Icon2024.08.21

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

Scaling Analytics @ Instagram: The power of deterministic sampling

Meta社のMediumブログにおいて、Instagramのデータ分析や機械学習のモデルトレーニングにはサンプリング(Deterministic Sampling)を用いたデータで行っていることについてまとめた記事が出ていました。

下記はデータ量の観点で記述されていた問題の1つで、毎日数兆件のイベントが発生しているという記載があるので、さすが規模が違うな…と感じました。

Increased Storage Costs: We process trillions of events per day and organic event volume growth is in double digits annually.

https://medium.com/@AnalyticsAtMeta/scaling-analytics-instagram-the-power-of-deterministic-sampling-8ee7332d77ae

Data Extract/Load

Airbyte

Airbyteを用いたコネクタ開発におけるテスト戦略

Airbyte社のブログより、Airbyteを用いたコネクタ開発におけるテスト戦略をまとめた記事が出ていました。

QA checks、Acceptance tests、Validation tests、Regression testsをAirbyteのコネクタではどのように行っているかがまとめられており、AirbyteのCIツールを使うことでこれらのテストをまとめて実行できることについても言及があります。

https://airbyte.com/blog/how-we-test-airbyte-and-marketplace-connectors

Data Warehouse/Data Lakehouse

Snowflake

Cortex Analystがパブリックプレビュー

Snowflake内のテーブルデータに対して自然言語で問い合わせを行う仕組みを簡単に構築できる「Cortex Analyst」がパブリックプレビューとなりました。

https://docs.snowflake.com/en/release-notes/2024/other/2024-08-14-cortex-analyst

https://www.snowflake.com/en/blog/cortex-analyst-ai-self-service-analytics/

実際に私も試してみましたが、Semantic Modelの定義をyamlで終えたら、そのファイルをCortex AnalystのAPIを叩く際に渡すだけで使うことができるので、とても楽に使うことが可能です。

https://dev.classmethod.jp/articles/snowflake-try-cortex-analytst/

Differential Privacy(差分プライバシー)がパブリックプレビュー

Snowflakeの新機能として、Differential Privacy(差分プライバシー)がパブリックプレビューとなりました。2つの機密データから差分を元に特定の個人情報を割り出すことを防ぐといったことが出来る機能となっております。

https://docs.snowflake.com/en/release-notes/2024/other/2024-08-16-diff-privacy

https://docs.snowflake.com/en/user-guide/diff-privacy/differential-privacy-overview

Snowflakeのパフォーマンスが改善

Snowflakeの公式ブログより、Snowflakeの各処理のパフォーマンスが向上したことをまとめたブログが出ていました。

https://www.snowflake.com/en/blog/snowflake-performance-efficiency-cost-savings/

具体的には、下記のようなパフォーマンス改善が行われているとのことです。

  • 自動クラスタリングのコストが平均で10%以上削減
  • コアインフラストラクチャを改善し、クエリ効率が最大40%向上
  • 検索最適化サービスとマテリアライズドビューのメンテナンスコストが80%削減

Databricks

AI/BI Genieをトレーニングする一連の流れ

Databricksの公式ブログより、DatabricksのAI/BI Genieという自然言語で問い合わせを行うことで該当する集計クエリとデータを回答してくれるサービスをトレーニングする一連の流れをまとめた記事が出ていました。

大まかには以下の流れとなっております。

  • Unity Catalogでdescriptionやkeyの情報を定義し、Genieが学習する
  • いくつか質問をGenieに投げかけ、回答に誤りがあったらUnity CatalogのDescriptionを修正したり、Genieに直接定義を伝えたりして、より正確な回答を出せるようにしていく
  • 実際にエンドユーザーにGenieを公開する。Genieの回答内容に対する高評価・低評価はUI上でまとめて閲覧が可能

https://www.databricks.com/blog/onboarding-your-new-aibi-genie

Onehouse

Onehouseと連携できる各種クエリエンジンについて、違いをまとめた記事が出ていました。個人的にはStarRocksは初耳でしたね…

https://www.onehouse.ai/blog/onehouse-analytics-engine-guide

Data Transform

dbt

dbt Cloud CLIを介してSQLFluffをGitHub Actionsで実行する例

私のブログで恐縮ですが、dbt Cloud CLIとSQLFluffとGitHub Actionsを用いて、プルリクエスト発行時に自動フォーマッティングすることをブログ化してみました。

このブログでは、2024年7月の新機能としてdbt Cloud CLIでSQLFluffが使えるようになったので、dbt Cloud CLIをGitHub Actionsで実行する方法も書いております。dbt Cloudの処理をGitHub Actionsで行いたい際は、dbt Cloud CLIが使えればdbt-coreのインストールが不要となり、profiles.ymlの作成やDWHの認証情報のGitHubへの登録が不要となるので、より楽になると思います。

https://dev.classmethod.jp/articles/dbt-sqlfluff-formatting-via-github-actions/

Business Intelligence

Looker

Looker 24.14のリリースノートが公開

Lookerの新バージョンである24.14のリリースノートが公開されました。

サンキーチャートやベン図の可視化ができるようになるみたいですね。

https://cloud.google.com/looker/docs/release-notes#August_14_2024

Looker上で自然言語で問い合わせてExploreのグラフ描写ができる「Looker Explore Assistant」

Looker上で自然言語で問い合わせてExploreのグラフ描写ができる「Looker Explore Assistant」というOSSが公開されています。

https://github.com/looker-open-source/looker-explore-assistant?tab=readme-ov-file

実際に私も試してみたので、こちらも参考になると嬉しいです。

https://dev.classmethod.jp/articles/looker-try-explore-assistant/

Tableau

Future of Tableau Innovation Preview 2024が開催

Future of Tableau Innovation Preview 2024という、最新のTableauの機能や今後の展望についての紹介があったイベントが8月17日に開催されました。

https://www.youtube.com/watch?v=MzPB-E6hMwQ

公式からもTableau EinsteinやEinstein Copilotに関して言及したブログが出ていました。

https://www.tableau.com/ja-jp/blog/know-your-tableau-einstein

https://www.tableau.com/ja-jp/blog/einstein-copilot-tableau-data-analysis-with-ai

こちらのイベントの内容を文字起こしして日本語訳された下記のブログも投稿されています。

https://note.com/rsugimura/n/nff68d09fcc59

新機能としては、下記について言及があったようです。私も詳細は理解できていないのですが、Salesforce・Tableau・Slackが生成AIの技術も用いてより密に連携していく機能群であるという印象を受けました。

  • Pulse for Salesforce
  • Einstein Copilot for Tableau
  • Tableau Einstein
  • Einstein Semantics

Omni

GUIでの定義をSemantic Layer化でき、スプレッドシートライクなUIも備えたBIツール「Omni」

本まとめブログで取り上げるのは初めてだと思いますが、GUIの操作をSemantic Layer化、スプレッドシートライクなUIを持つ、といういろんなBIのいいところ取りをしたBIツールとして「Omni」という製品があります。

Omniは2022年2月に創業した企業で、Omniを創業したのは、LookerでChief Analytics OfficerをされていたColin氏、LookerでVP ProductをされていたJamie氏、StitchでCTO→買収後のTalendではVP of EngineeringをされていたChristopher氏、という3名となっています。

https://omni.co/blog/introducing-omni

実際私も試してみましたが、従来のBIツールのようなUIで定義したJOINや新しいフィールドをそのままコード化して他のユーザーと共通利用できるので、とてもよい開発体験を得られました。

https://dev.classmethod.jp/articles/try-omni/

またdbtと連携することで、Omniの画面上で選択したフィールドに基づいた集計クエリをdbtのModelとしてPush出来る機能も備わっております。

https://dev.classmethod.jp/articles/omni-push-to-dbt-model/

Data Activation (Reverse ETL)

Hightouch

BigQuery continuous queriesとPub/SubをソースとしたリアルタイムなReverse ETLのサポートを発表

Hightouchが、BigQuery continuous queriesとPub/SubをソースとしたリアルタイムなReverse ETLサポートを発表しました。

https://hightouch.com/blog/announcing-google-continuous-queries

Census

Live Sync機能においてBigQuery continuous queriesとPub/SubをソースとしたリアルタイムなReverse ETLのサポートを発表

CensusがリアルタイムなReverse ETLを行なえるLive Syncs機能で、BigQuery continuous queriesとPub/SubをソースとしたリアルタイムなReverse ETLサポートを発表しました。

https://www.getcensus.com/blog/realtime-reverse-etl-for-google-bigquery

Data Quality・Data Observability

Observe

Snowflakeに対応したNative Apps「Observe For Snowflake」を発表

Observe社が、SnowflakeのNative Appsとして「Observe For Snowflake」を発表しました。

このアプリでは、SnowflakeのACCOUNTUSAGEのビューやイベントテーブルを参照する、ダッシュボードを提供しています。Snowflakeのログインの統計情報をまとめたダッシュボードも提供されているようです。

https://www.observeinc.com/blog/making-snowflake-observability-easy/

Data Orchestration

Dagster

Dagster 1.8のリリース

Dagsterの公式ブログより、最新バージョンである1.8のリリース内容についてまとめた記事が出ていました。

個人的には、DbtProject Integration、SDF Integration、Looker Integration、あたりが気になりました。

https://dagster.io/blog/dagster-1-8-call-me-maybe

この記事をシェアする

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.