[2023年7月19日号]個人的に気になったModern Data Stack情報まとめ

Modern Data Stack情報まとめモダンデータスタック(MDS)

さがら

2023.07.19

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項：記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

「データ基盤管理の考え方〜データカタログ、データレイクの極意〜」が7/11に開催

7/11にFindy株式会社主催で「データ基盤管理の考え方〜データカタログ、データレイクの極意〜」というイベントが開催されました。

データ基盤を構築する技術面だけでなく、どうやって膨大な情報に関するメタデータを効率よく管理するか、というデータマネジメント的な側面をテーマにしたイベントで、4社から発表がありました。

登壇資料もアップロードされておりましたので、以下にリンク先を載せておきます。

「データマネジメントの勘所－マルチプロダクトSaaSを支えるデータ戦略の重要性」が7/11に開催

7/11に株式会社primeNumber主催で「データマネジメントの勘所－マルチプロダクトSaaSを支えるデータ戦略の重要性」というイベントが開催されました。

データ基盤の技術面よりも、組織文化やデータマネジメントにフォーカスした内容で、LayerX社、プレイド社、マネーフォワード社、の3社から発表がありました。

登壇資料はLayerX社のものしか見つけられなかったのですが、以下にリンク先を載せておきます。

データマネジメントの祭典「デタマネFES」が8/1から10日間毎夜開催

一般社団法人日本データマネジメント・コンソーシアムのコミュニティ主催のイベント「デタマネFES」が2023年8月1日～8月10日の期間毎日夜に開催されるようです。

各企業のデータマネジメントの取り組みに関するLTメインとなっていますので、気になる方はぜひ参加してみてください！

Monte Carlo社による「Data Accuracy」と「Data Completeness」に関する定義・例・KPIをまとめた記事

Monte Carlo社による「Data Accuracy」と「Data Completeness」に関する定義・例・KPIをまとめた記事が出ていました。体系的にまとまっているため、参考になる方も多いと思います。

Data Accuracyについて

Data Completenessについて

Babylist社とNasdaq社がどのようにデータ品質・信頼性を担保したデータスタックを構築したか

Monte Carlo社のブログにおいて、Monte Carloを導入しているBabylist社とNasdaq社がどのようにデータ品質を確保したデータスタックを構築したかまとめた記事が出ていました。

大きく5つのステップに分けていますが、「組織的な連携を最初に取ること」、「ソフトウェアエンジニアリングのベストプラクティスを適用すること」、「スモールスタートで成功可能性の高い小さなプロジェクトから始めること」と、まさに！という観点で述べられています。

データ漏洩に関するImmuta社のまとめ記事

Immuta社がデータ漏洩に関して、データ漏洩の主な原因、昨今のデータ漏洩の事例、データ漏洩の防止策、についてまとめた記事を出していました。

How to Implement a Successful AI Strategy for Your Company

phData社が、AI戦略(AI Strategy)を立てる際の考え方やステップについてまとめた記事を出していました。

AIユースケースの発見からMLOpsのアーキテクチャを早い段階で考えるなど、具体的に書かれています。

Data Extract/Load

Fivetran

Fivetranを初めて使う方向けのチュートリアル記事

「Your first 30 days as a Fivetran user」というタイトルで、Fivetranを初めて使う方向けのチュートリアル記事が出ていました。

一連のセットアップの流れだけでなく、Fivetranのコストを考える上で重要なMonthly Active Rows(MAR)に付いての考え方や、コストの確認方法もGif付きで記載されていますので、これからFivetranを試したいという方には参考になると思います！

Data Warehouse/Data Lakehouse

全般

Snowflake

BUILD.localが7/11に開催

7/11にSnowflakeのオフラインイベントであるBUILD.localが開催されました。6月末に開催されたSnowflake Summitでのアップデート情報、ハンズオン、ネットワーキング、など盛りだくさんの内容だったようです。（残念ながら私は参加できていないのですが…）

Twitterで「#SnowflakeBUILD」で検索すると、当日の共有された情報や盛り上がり度合いを確認できるため、ぜひ検索してみてください！

Snowpark Container Servicesに関する技術的な解説記事

Snowflake Summit 2023で発表された目玉機能であるSnowpark Container Servicesですが、この機能に関する技術的な解説記事が出ていました。

私も正直コンテナは詳しくないのですが、DockerなどのOCI(Open Container Initiative)準拠のコンテナランタイムで実行できるようなので、これまでに開発していたコンテナアプリケーションもSnowflake上で実行できそうですね！

GROUP BY句でALLを指定可能に

Snowflakeでクエリを書く際、GROUP BY句でALLを指定可能になりました！

これまでのクエリの書き方だと、GROUP BY句では具体的にカラム名かSELECT句での順番を数値で入れる必要がありましたが、Snowflakeならばその必要がなくなります！

これは嬉しい方が多いアップデートだと思いますね。

BigQuery

BigQueryにおける主キーと外部キーのテーブル制約がGA

BigQueryにおける主キーと外部キーのテーブル制約がGAとなりました。

主キーと外部キーの制約を強制できるわけではないのですが、JOIN時の最適化などに役立つようです！

BigQuery MLでpreprocessingを行える関数がGA

BigQuery MLでpreprocessingを行える関数がGAとなりました。

以下の7つの関数がGAとなっていますので、BigQuery上で前処理を行い学習させるという流れがよりしやすくなりましたね！

GA4とGoogle Search ConsoleをBigQueryにエクスポートしたデータに対して、出力条件設定するとクエリを自動作成してくれるツール

たまたま@ryuka01さんのツイートで見かけた情報ではあるのですが、GA4とGoogle Search ConsoleをBigQueryにエクスポートしたデータに対して、出力条件設定するとクエリを自動作成してくれるツールが「無料」で提供されています。

私も試してブログにしてみたので、こちらも併せてご覧ください！

MotherDuck/DuckDB

MotherDuckのパートナーエコシステムについて

2023年6月に発表されて注目されているMotherDuckですが、パートナーエコシステムを構成する製品群と関係性を表した図が公開されました。

MotherDuckは2023年6月末までに合計5つのパートナー統合を提供するという目標を計画していたらしいですが、最終的に「17」のパートナーとの連携を開始できるようになったとのことです。

Data Transform

dbt

dbt Core ver1.6は2023年7月31日に正式リリース予定

dbtは3ヶ月に一度マイナーバージョンのアップデートがありますが、dbt Core ver1.6が2023年7月31日に正式リリース予定です！

現時点では、以下のような機能がリリースされる予定です。

メトリクスの定義に関わるパッケージがdbt-metricsからdbt-metricflowへ移行
dbt retryやdbt cloneという新しいコマンドがリリース
複数のプロジェクト間でのModel参照

dbt Cloudのジョブスケジューラ機能がアップデート

この2ヶ月の間でdbt Cloudのジョブスケジューラ機能がアップデートされており、そのまとめ記事が出ていました。

この記事によると、以下のアップデートがこの2ヶ月の間に行われたとのことです。

実行開始までの時間が、75%高速化
（Enterprise版の場合）無制限のジョブ同時実行が可能に
スケジュールされたジョブはキューに1回のみ含まれるように
実行ログをより見やすく

VSCodeの拡張機能「vscode-dbt-power-user」の良い点まとめ

dbt Coreの開発をVSCodeで行う場合に便利な拡張機能として「vscode-dbt-power-user」がありますが、この拡張機能を使う際の良さについてわかりやすくまとめられた記事が出ていました。

私は検証には基本的にdbt Cloudを使うことが多いのですが、この拡張機能があればモデル間のリネージが見れたり、コンパイル後のSQLをさっと見れたり、dbt Cloudで出来ることがVSCodeでも出来るのだな～と勉強になりました！

dbt Incremental Cookbook

dbtのIncremental Modelについて実際のクエリと併せて詳細に解説された記事が出ていました。

特にデータ量の多いテーブルに対してはIncremental Modelを使わないと処理に時間がかかってしまうこともありますので、Incremental Modelが有効に活きる場面ではぜひ使っていきましょう。

Semantic Layer

全般

Semantic Layer視点で見たときのLookerとdbtの違いについて

私の投稿内容で恐縮ですが、2023年7月8日に開催されたDevelopersIO 2023 Day2で、コードでデータ分析に関わる指標を管理できる「Semantic Layer」についてLookerとdbtの違いを話しました。

その時の登壇資料などを下記の記事でまとめておりますので、気になる方はぜひご覧ください！

Semantic Layerに関するCube社の解説記事

Cube社が、Semantic Layerに関する解説記事を出していました。

Semantic Layerの構成要素、必要な理由、主なユースケース、とSemantic Layerを理解する上で幅広い視点で1つの記事にまとめられているので、Semantic Layerについて知りたい方には参考になる記事だと思います。

Data Application

Streamlit

StreamlitとLangChainの今後のインテグレーションについて

Streamlitのブログにて、StreamlitとLangChainのインテグレーションと今後の計画についてアナウンスがありました。

StreamlitとLangChainを組み合わせたアプリケーションについては、これまでも下記の記事のようにいくつか事例があがっておりました。

まずはLangChainからStreamlitアプリに書き込むCallback handlerが提供されるようで、今後もVectorStoreやSQLChainへの対応などを予定しているとのことです。

「つくりながら学ぶ！AIアプリ開発入門 - LangChain & Streamlit による ChatGPT API 徹底活用」が公開

@MLBear2さんにより、Zennで「つくりながら学ぶ！AIアプリ開発入門 - LangChain & Streamlit による ChatGPT API 徹底活用」という本が公開されていました。

LangChainとStreamlitを用いたアプリ開発について、環境準備からデプロイとその実用方法(Webサイト要約・YouTube要約・PDFのアップロードと内容に対する質問)と幅広く学ぶことが出来る素晴らしい本です。ぜひご覧ください。

Business Intelligence

Looker

Looker 23.12が提供開始

2023年7月18日からLooker23.12が提供開始となりました。

今回のアップデートに伴い、以下の2つのクックブックがリリースされていました。どちらもLookerの開発に関わる内容が含まれています。

Power BIからLookerのデータモデルへのアクセスが一般提供

Power BIからLookerのデータモデルへのアクセスが一般提供となりました！（先月リリースされた23.10でPowerBIからLookerへのコネクタが一般提供となっていた覚えがありますが、改めて記事が出たのでこれで間違いなしですね。）

ThoughtSpot

Google Cloudとの連携を強化に関する公式ブログ

最近ThoughtSpotはGoogle Cloudとの連携を強化していますが、改めてその経緯や今後提供される機能についてまとめられた記事が出ていました。

今後、Google CloudのGenerative AI機能をThoughtSpotに取りこむことが期待されるので、楽しみですね！

Data Catalog

Atlan

Mistertemp社によるAtlan導入事例

フランスに本社がある人材採用に関わる事業を行うMistertemp社が、Atlan、Snowflake、Fivetran、Looker、Airflow、dbtを用いたModern Data Stackを構築した事例ブログが出ていました。

特に、Atlanの自動で生成されるカラムレベルリネージと人気の度合いの指標を用いて、どのデータ資産が使用されているかされていないかが判断できるようになり、データ資産の3分の2に相当するSnowflakeテーブルの半分と、Looker資産の60%以上を廃止することができたとのことです。

OpenMetadata

OpenMetadata Ver1.1がリリース

OpenMetadataの最新バージョンVer1.1がリリースされました。

機能拡張や改修はもちろんですが、一番大きい変更はUIかなと思います！以前より親しみやすいUIになったと思いますね。（下図はOpenMetadataのサンドボックスより）

Data Activation (Reverse ETL)

Hightouch

Tableauで分析した結果をMAツールであるBrazeに連携する例

私のブログで恐縮ですが、HightouchはTableauのViewを転送元のModelとして設定することが可能なため、Tableauで分析した結果をMAツールであるBrazeに連携する、ということを試して以下のブログに内容をまとめております。

Data Orchestration

Dagster

dbtとの新しい連携機能を発表するイベントが8月2日に開催予定

Dagsterが「Supercharge dbt」というイベントを8月2日に開催予定です。

内容としては、Dagsterのdbt連携に関わる新機能を発表するようです！

ゼロから始めるDagster・すぐに使える実践ガイド

akira @ DataMarketさんにより、「ゼロから始めるDagster・すぐに使える実践ガイド」が公開されました！

Dagsterのアーキテクチャから各種用語について丁寧に解説されております。Dagsterが気になっていた方はぜひご覧ください。