[2023年5月10日号]個人的に気になったModern Data Stack情報まとめ

Modern Data Stack情報まとめモダンデータスタック(MDS)

さがら

2023.05.10

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この3週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項：記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

The SaaS Trends Report Q1:2023

Modern Data Stackと強く関係があるわけではないのですが、Vendr社によりSaaSのトレンドをまとめたレポートが出ていました。

Vendr社が提供するプラットフォームを介してどのSaaSがよく売れているのか、各SaaSの平均契約金額は、といった情報がわかり面白いレポートでした。

（弊社でも取り扱いがある製品がいくつか「The SaaS Leaderboard」にランクインしていたのが嬉しかったです！）

MDS Rocketships Awards 2023が開催中

2023/5/1より、MDS Rocketship Awardsが開催されています。

これは各ベンダーの創業者やベンチャーキャピタル系の方などのModern Data Stackに関わるコミュニティメンバーが審査員となり、Modern Data Stackの分野ごとに世界で最も影響力のあるツールを表彰する取り組みです。

ちなみに、下図が2022年に開催された時のAwards一覧です。比較して見ていくと、この1年でどう変わったかがわかり面白いと思います！

Airbyte社によるData Modelingに関するブログ Part2

データのExtract～Loadを担ってくれるAirbyteが自社ブログで、データモデリングに関する3部作の2本目の記事を出していました。2本目では、データモデリングを行う際のアプローチの種類や、Dimensional ModelingやData Vaultなどのモデリング手法についての説明がされています。

Build vs Buy Data Pipeline Guide

Monte Carlo社により「Build vs Buy Data Pipeline Guide」というタイトルで、データパイプラインを自社で開発(Build)して構築するべきか、SaaSを購入(Buy)して構築するべきか、についてUber社とLyra Health社で勤務経験のあるNithh氏の私見をまとめた記事が出ていました。

考慮すべき5つの観点から、データ基盤における各プロセスにおいてどのような観点でツールを選定すべきかということが具体的にまとめられております。

Data Extract/Load

Fivetran

FivetranのBusiness CriticalプランがGoogle Cloudに対応

これまでAWSとAzureのみに対応していたBusiness Criticalプランですが、Google Cloudにも対応することを発表しました。

Business Criticalプランの場合だと、インターネットを介さないプライベートな接続や、Fivetranの処理が動くクラウドのリージョンまで指定できたり、よりセキュアな環境でFivetranを稼働させることができます。

Fivetranのコストを最適化する6つのヒントについてまとめられた記事

Fivetran社による、Fivetranのコストを抑える6つの方法についてまとめられた記事が出ていました。

トライアル期間中の見積方法や、スキーマが変更されたときの通知機能など、幅広い観点で述べられているため、参考になる方も多いと思います。

Fivetran Log Connectorに関する解説記事

Fivetran Log Connectorは、Fivetranのコネクタに関するログをDestinationに設定したDWH・DBに転送することができるコネクタです。このFivetran Log ConnectorはMonthly Active Rowsに含まれないため、基本的には設定することを推奨しております。

その上で、このFivetran Log Connectorを使ってどんな情報を取得できるかについて、本記事でまとめられています。Fivetran Log ConnectorについてはQuickstart Data Modelsも提供されているため、すぐに分析に使える形に変換することも可能です。まだFivetran Log Connectorを活用していなかった方は、ぜひお試しください。

FivetranとAWSのサービスを用いたデータレイクの管理方法についてまとめられた記事

先日FivetranがS3へのApache Iceberg形式での出力機能をリリースしていましたが、この機能とAWSのLake Formationなどのサービスを用いてデータレイクとして管理する方法について述べた記事が出ていました。

記事中にもありましたが、GDPR周りの対応でデータの削除周りに活かせそうというのは私にとっても知見でした。

Data Warehouse/Data Lakehouse

Snowflake

Snowflake社の方からSnowflakeを学べる「SNOWFLAKE DISCOVERウェビナー」が5/11と5/19に開催予定

Snowflakeの日本支社で、Snowflakeの各技術のことを学べるウェビナーが開催されるようです。

参加費用もかからないため、気になる方はぜひご登録ください！

ExcelをSnowflakeにロードできるPython Stored Procedureの例

Pythonで記述したStored Procedureを用いて、ExcelのデータをSnowflakeにロードする方法が記載された記事が出ていました。

どうしてもExcelでデータを管理しているケースはあると思います。その上で、「サードパーティのデータロード用のサービスを導入するにはコストがかかる…」という方にはぜひ試してもらいたい方法です！

Pfizer社のSnowflake事例ブログ

日本でも新型コロナウイルスのワクチンを提供しており一躍有名となったPfizer(ファイザー)社ですが、Snowflakeを使用しているようで、事例ブログが出ていました。

特にこの記事ではSnowflakeのレプリケーションやデータシェアリング機能などを用いて、リージョンを越えた連携が行えていると記載がありました。

Snowsight上でフォルダ内で自由にロールを切り替えられるように

これまでSnowsightのフォルダ内では一つのロールしか割り当てることができませんでしたが、今回のアップデートでフォルダ内のワークシートそれぞれに別のロールを割り当てることができるようになりました！

SnowsightのGUIベースでローカルファイルをステージングできるように　※パブリックプレビュー

これまでSnowflakeの内部ステージにローカルファイルをステージングするには、SnowsqlをインストールしてPUTコマンドを実行するしかありませんでした。

しかし今回のアップデートで、ローカルファイルの内部ステージへのアップロードがGUIベースの操作でできるようになりました！ぱぱっとローカルファイルをステージングして検証したい場合には便利だと思います。

Snowsight上のGUI操作でデータロードが可能に　※パブリックプレビュー

従来のコンソール画面ではGUI操作でローカルファイルを用いたデータロードが可能だったのですが、Snowsightではこれが出来ませんでした。

しかし、今回のアップデートでSnowsight上のGUI操作でローカルファイルを指定したテーブルにロードできるようになりました！従来のコンソールでは出来ていたことなので、Snowsightでも出来るようになって嬉しいですね！

BigQuery

テーブルクローン機能が一般提供

BigQueryにおけるテーブルクローン機能が一般提供(GA)となりました！テーブルをクローンしただけではストレージコストは発生せず、クローン先のテーブルで変更をかけたときのみ、その差分に対してストレージコストが発生する仕様となっております。物理的なテーブルコピーよりも低コストで行えるため、有効活用していきましょう！

DuckDB

DuckDBの初心者向けチュートリアル

DuckDBの初心者向けのチュートリアルが公開されていました。

DuckDBの概要からチュートリアル用の各コマンドまで記述されているため、DuckDBの取っ掛かりにはよいと思います！

DuckDBが地理空間データの処理を可能にする各関数を提供開始

DuckDBが地理空間データの処理を可能にする各関数を提供開始しました。

下記の記事では、タクシーの乗車・降車データを例に、どのように各関数が使用できるかもまとめられております。

Data Transform

dbt

dbt-core ver1.5のリリース

dbt-coreのver1.5がリリースされました！

また、dbt Labsの創業者であるTristan氏により、dbtエコシステムの拡大に伴う課題と、その課題を解決するためにver1.5で追加される、Access、Contracts、Versions、という機能について紹介する記事が投稿されていました。

端的に言うと、dbtにおけるガバナンス周りの機能が強化されたという印象です！私もどこかで試してブログにしたい…

更に、dbt LabsのJeremy氏もこれらの新機能についての記事を書いていましたので、こちらも併せてご覧ください。

MetricFlow統合後のdbt Semantic Layerの機能の一部と今後の提供スケジュールが公開

dbt Labs社は今年の2月にTransform社を買収し、Transform社が元々開発していたMetricFlowというSemantic LayerのOSSがdbt Semantic Layerにどう組み込まれるのか注目されていましたが、この度具体的な統合後の新機能の一部や、統合後の提供スケジュールが公開されました！

統合後の機能として、JOINへの対応、クエリの最適化、キャッシュ機能、などSemantic Layerにとってあると本当にありがたい機能が盛り沢山です！

提供スケジュールとしては、2023年の第3四半期にベータ版リリース、2023年の第4四半期パブリックプレビュー、とのことなので、今から待ち遠しいですね！！

ちなみに、従来のdbt_metricsパッケージは2023年7月下旬にリリース予定のdbt-core ver1.6のリリースに伴い廃止することが決定となっています（MetricFlow統合後のSemantic Layerに移行するためのスクリプトは提供されるようです。）

この廃止する理由についても、下記の記事にまとまっておりますので、ぜひご覧ください。

dbtを用いたディメンショナルモデリングのサンプル

dbtのDeveloper Blogにおいて、dbtを用いたディメンショナルモデリングの良いサンプルが公開されていました。

特に私が良いなと思った点は、Part2でビジネスプロセスを確認している所です。モデリングの一番の目的は、「データを整理してエンドユーザーにとってよりデータを使いやすくすること」ですので、ビジネス要件を明確にした上でモデリングを行うことはとても重要です。

これまでありそうでなかったサンプルなので、参考になる方は多いと思います。

Datafold社によるGitHub Actionsを用いたdbtのCI/CDの実例

Datafold社により、dbtのCI/CDをGitHub Actionsで行っている実例が記事として出ていました。

背景として、元々対象となるdbt projectの全てをGitHub ActionsのCIジョブでビルドしていたため、Snowflakeのコストが数ヶ月で2倍になってしまったことを受け、CIジョブの見直しを行ったようです。

dbtのSlim CIや、ステージング環境を設けたりと、様々なテクニックが記載されているため、参考になる方は多いと思います。

Alteryxからdbtへの移行事例

Alteryxからdbtに移行したという、珍しい事例記事が出ていました。

ただ、この記事でも述べられていますが、すべてのAlteryxユーザーに参考になる内容ではありません。Alteryxはデータ前処理からデータ分析＆機械学習、dbtはデータ変換、とそもそも各製品がスコープとしている範囲が異なるため、ご注意ください！

「Best Practices for Leveraging Amazon Redshift and dbt」のまとめ

AWSが執筆している、Amazon Redshiftとdbtを活用するためのベストプラクティスをまとめたホワイトペーパー「Best Practices for Leveraging Amazon Redshift and dbt」について、弊社の石川が日本語で内容をまとめたブログを投稿しました。

dbtの基本的な概念から、開発環境と本番環境を分ける際の考え方、Redshift×dbt特有のチューニング、など実際に運用する際に役立つ知識が盛り沢山です！ぜひご覧ください。

Zapierを介したdbt Cloudのジョブ終了後にTableauの抽出更新を行う事例

dbtでデータマートを開発し、そのデータマートをTableauから参照するというユースケースはよくあるケースだと思いますが、DWHのコストなどを考慮してdbtで開発したデータマートからTableauの抽出を更新したい、という要望はあると思います。

この要望に対して、Zapierを間に挟んでおりますが、dbt Cloudのジョブ終了時にWebhookで通知しTableauのワークブックを更新（使用されている抽出を更新）するということを行った事例が公開されていました。

この例ではワークブックに埋め込まれた抽出が前提ですが、APIでデータソースとしてパブリッシュされた抽出更新タスクの実行もできるで、何かと使えそうな印象を受けました。

Dataform

DataformがGA

2023年5月4日に、DataformがとうとうGAになりました！

併せて、Dataform単体でのワークフロー定義によるスケジューリング機能も公開されていました！これまでDataform単体でスケジューリング実行できなかったので、これは嬉しいですね！

DataformのログをCloud Loggingで記録できるように　※プレビュー

2023年4月18日に、DataformのログをCloud Loggingで記録できるようになりました。（Previewの機能です。）

Business Intelligence

Looker

Google Cloudコンソール版がリリース

LookerはGoogle Cloudに買収された後もGoogle Cloudのコンソール画面から使用することが出来ていませんでしたが、この度Google Cloudのコンソール画面からLookerインスタンスを起動できるようになりました！

30日間の無料トライアルもあるようなので、これまでよりも気軽にLookerを試すことが出来るようになりました。

こちらのLooker(Google Cloud core)については私も試してみましたので、下記のブログも参考になると嬉しいです！

Tableau

Tableau Conference 2023が開催

2023年5月9日～11日にラスベガスで、Tableau Conference 2023が開催されています！基調講演で発表された新機能については、後述します。

Tableau GPT、Tableau Pulse、VizQL Data Services、Data Cloud for Tableauの発表

上述のTableau Conference 2023の基調講演において、Tableau GPT、Tableau Pulse、VizQL Data Services、Data Cloud for Tableauという新機能が発表されました。

以下、私の各新機能についての理解です。

Tableau Pulseが新しい分析画面となり、Tableau GPTを用いていることで、各指標が自動集計された結果を確認したり、自然言語ベースでのデータに関する質問が可能になる
VizQL Data Serviceは、APIを叩いてTableauで定義されたデータソースやダッシュボードを元にデータを取得できる機能。データを取得した先で任意の可視化などが可能となるため、アプリケーションに埋め込んでデータの値をそのまま見せたり独自の可視化を行ったり、ということが出来そう
Data Cloud for Tableauは、各種DWHやDBのデータを一元的にTableauから参照できる機能

Data Catalog

Atlan

Nasdaq社がAtlanを用いてData Discoveryにかかる時間を3分の1に削減した事例

Atlan社のブログにおいて、Nasdaq社がAtlanを用いてData Discoveryにかかる時間を3分の1に削減した事例が公開されていました。

Nasdaq社は2012年からAWSを使用していて、Nasdaq社のトレーディングシステムでは米国だけでも1日あたり1400億ものイベントが処理されているというNasdaq社の状況や、社内のビジネスユーザーの要望に答えるためにデータスタックへの投資に取り組んでdbt、Monte Carlo、Atlanを採用したということが書かれていました。

Nasdaq社のような金融業界の最巨塔とも言える企業がこのようなModern Data Stackを採用しているのは本当に興味深いですね！

Secoda

自然言語でSecoda上のメタデータについての情報取得が可能なSecoda AIがリリース

自然言語ベースで、クエリやドキュメントの自動生成だけでなく、Secodaのアカウント内のユーザーに紐づいた情報(各アセットの所有者とか)の取得も出来る、「Secoda AI」がリリースされました。

とうとう一般提供されるレベルで、データカタログ界隈にもLLMの波が来ましたね！

下記のリンク先にデモ動画もあるため、気になる方はぜひご覧ください。

Castor

Castorで定義したDescriptionを各種DWH・BIに書き戻せる機能が発表

Castorで定義したDescriptionをSnowflake、BigQuery、Tableau、Lookerに書き戻せる機能を発表しました！

少し前にCastorで定義したDescriptionをdbtに書き戻せる機能も発表していましたが、DWHやBIにもこのスピード感で対応するとは思わなかったです！ Castorは、ビジネスメタデータをいかに楽に管理するかに特化しているのが面白いですね。

dbt TestとSodaと連携しデータテストの結果がCastor上で確認できるように

dbtのTest機能とData Observabilityのプラットフォームを提供するSodaとの連携が可能になり、Castor上で各テストの結果が確認できるようになりました。

この機能によりデータカタログ上から各データの品質の状況を確認できるので、エンドユーザーからしても「あっ、このデータ今問題あるんだな」というのがすぐにわかるのは便利だと思います！

OpenMetadata

ver1.0がリリース

OpenMetadataが、とうとうver1.0をリリースしました！

日本語へのローカリゼーション対応、PIIを自動分類しタグ付け、メタデータ抽出時のパフォーマンス向上など、多くのアップデートも含まれています。

Data Activation (Reverse ETL)

Hightouch

サードパーティCookie廃止後のユーザープロファイルの充実に役立つ「Match Booster」を発表

Hightouchが独自に調達したハッシュ化されたIDデータセットを用いて、ユーザーがDWH上に保持する情報と紐づけてよりリッチなユーザープロファイルを構築し、より正確なターゲティングを可能にさせるMatch Boosterの機能を発表しました。

この機能の根本となるデータについては、下記のように書いてあるのですが、どのデータプロバイダーからどのように取得しているかがとても気になる所です…日本のユーザーデータがどれだけあるのかも気になります…

The secret to Match Booster is the extensive identity enrichment data set we have built through partnerships with the world's leading data providers. This identity store securely houses billions of hashed user identifiers such as email addresses, phone numbers, or device IDs.

とはいえ、サードパーティCookie廃止後のマーケティングの軸になりうる概念を持つ機能なので、今後が楽しみです！

Census

Census上で顧客情報を集約しセグメントを切ることができるAudience Hubを発表

CensusにつなげたDWH・DBのデータに含まれる顧客情報を元に、GUIベースでフィルタを行うことができるAudience Hubを発表しました。

この機能に関して、Snowflake社のデータシェアリング機能も活用し、Snowflake + Census + etcの組み合わせでComposable CDPを出来るということについて、Snowflake社とCensus社から記事が出ていました。こちらもぜひ併せてご覧ください。

Data Quality・Data Observability

Acceldata

Data Observabilityのユースケースについてまとめられた記事

Acceldata社のブログにて、Data Observabilityのユースケースについてまとめられた記事が出ていました。

設計やキャパシティプランニング、基盤運用時のDWHの性能周りやデータ品質、リソースの最適化、など様々な観点で述べられているため、「Data Observabilityってどういうときに役立つの？」という方にピッタリの記事だと思います。

Great Expectations

2023年4月の新機能まとめ記事

Great Expectationsについて、2023年4月アップデートされた機能についてのまとめ記事が出ていました。

Data Security

Immuta

Data Security Posture Management (DSPM)のための機能を発表

クラウド上に保管されている機密情報を特定・保護するための方法論としてData Security Posture Management (DSPM)という考えがあります。

そして、このDSPMをImmutaで実現するための機能として、「Vulnerability Risk Assessment」「Dynamic Query Classification」という2つの機能がImmutaからリリースされました。

Vulnerability Risk Assessmentでは各種ログを継続的に処理し脆弱性評価を行ってくれるようで、Dynamic Query Classificationでは機密データを保護するために発行されたクエリを自動分類してくれるようです。（ちょっと実態が掴めきれないので私もどこかで試したいですね…）

Satori

Universal Data Permissions ScannerというOSSをリリース

Satoriはデータのアクセス権限周りに強みを持つSaaSですが、データ基盤におけるユーザー一覧とどのデータへのアクセス権を持つかをまとめて取得できるOSS「Universal Data Permissions Scanner」をリリースしました。

実際に提供されているOSSのリポジトリはこちらになるため、興味のある方はお試しください！