[2024年5月8日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Lambda, Kappa, Delta Architectures for Data
データ処理のアーキテクチャとしてLambda Architecture、Kappa Architecture、Delta Architectureがありますが、それぞれについて解説を行っている記事が出ていました。
個人的にDelta Architectureは知らなかったので、勉強になりました。
What is Identity Resolution? A Comprehensive Guide
phData社のブログにおいて「What is Identity Resolution? A Comprehensive Guide」というタイトルでIdentity Resolution(ID解決)に関する解説記事が出ていました。
多様なサービス展開やデジタルマーケティングを行っている企業が多い中、各データをつなぎ合わせて顧客のデータを統合して管理することのメリットは更に増していると思いますので、Identity Resolutionに関する概要を知りたい方には良い記事だと思います。
Data Warehouse/Data Lakehouse
Snowflake
オープンソースのLLM「Arctic」を発表
Snowflakeが独自に開発したオープンソースのLLMである「Arctic」が発表されました。
また、Arcticを使用する際のテクニックなどがまとめられたCookbookも新規公開されています。今後も記事が増えていくようですので、こちらも併せてご覧ください。
Dynamic Tableが一般提供
Dynamic Tableが一般提供となりました!待っていた方も多いと思います。
ただ一般提供となっただけでなく、色々と機能追加も行われています。
- シェアリングが可能に
- レプリケーションが可能に
- クラスタリングキーの設定、TransientなDynamic Tableの定義、各種ポリシー定義が可能に
- DAGの深さ制限の排除
- SELECT *への対応とカラムの自動追加が可能に
さらに、関連する各種ドキュメントも公開されています。
Vector data typeとVector similarity functionsがパブリックプレビュー
Snowflakeテーブル上でVector Embeddingsを行うための機能として、Vector data typeとVector similarity functionsがパブリックプレビューとなりました。
このパブリックプレビューに関連して、以前から公開されていた以下のQuickstartもできるようになっているはずです。(私もまだ試していないので、どこかで試したい…)
Google Analytics用のコネクタが一般提供
GA4のデータをSnowflakeにロードできる、「Snowflake Connector for Google Analytics Raw Data」と「Snowflake Connector for Google Analytics Aggregate Data」が一般提供となりました。
このコネクタの使い方については弊社でも一度ブログにしていますので、ぜひこちらをご覧ください。
terraform-provider-snowflakeに関する最新ロードマップが公開
terraform-provider-snowflakeのリポジトリにおいて、最新のロードマップが公開されました。
ver1.0に向けた一般公開されているオブジェクトへの対応、パブリックプレビューの機能、Snowflake Supportの対応、といったことが言及されています。
以下はterraform-provider-snowflakeに関するおまけ情報ですが、terraform-provider-snowflakeを使用する際のModule構成について私なりに考えてまとめた記事を最近投稿しました。各ファイルのコードも載せていますので、ご覧いただけると嬉しいです。
Snowflakeの新しいCost Management画面とBudgets機能が一般提供
Snowflakeのコスト管理機能として、コスト管理を行えるCost Managementの画面とBudgets機能が一般提供となりました。
以前よりコストの管理がしやすくなっていますので、ぜひ活用ください。
SnowflakeのAccess Historyビューを用いたアカウント監査用のクエリ8選
SELECT社のブログにおいて、SnowflakeのAccess Historyビューを用いたアカウント監査用のクエリ8選がまとめられた記事が出ていました。
具体的には以下のデータを得ることができるクエリが記載されています。
- 特定のユーザーが過去30日間にアクセスしたすべてのテーブルを検索
- スキーマ内でアクセスされているすべてのテーブルを検索
- 過去30日間に特定のテーブルにアクセスしたすべてのユーザーを検索
- 未使用のテーブルを特定
- 未使用のビューを特定
- 特定のテーブル内でアクセスされる最も一般的なカラムを特定
- 過去30日間に特定のカラムにアクセスしたすべてのユーザーを検索
- テーブルを変更したすべてのクエリを特定
Data Transform
dbt
dbt Cloudで最新バージョンのdbtを使用し続ける「Keep on latest version」が一般提供
dbt CloudのEnvironmentsレベルで最新バージョンのdbtを使用し続ける「Keep on latest version」が一般提供となりました。
この機能のリリースのために、dbt Labs社がどのようなことに取り組んでいたかがまとめられた記事も公開されています。We’re pleased to say that since the beta launch of “Keep on latest version” in dbt Cloud in March, we have not had any functional regressions reach customers
と書いてあることから、実績がある機能であることが伺えます。
Business Intelligence
Tableau
Tableau Conference 2024が開催
現地時間の2024年4月29日~5月1日に、Tableau Conference 2024が開催されました。
主な発表内容は下記の記事にまとまっております。Tableau Desktop Public Edition を使用したローカル ファイルの保存、Sankeyグラフなどを描画できるViz拡張機能、Composable Data Sources、Einstein Copilot、あたりが特に目ぼしい機能だと感じました。
ライセンス的な意味ですごい発表だと思ったのは、Tableau Desktop Public Editionで作成したファイルのローカル保存機能の発表です。これまでTableau Publicに必ずパブリッシュしないといけなかったのが、社内の機密情報を含むデータであってもTableau Desktop Public Editionを使うことでローカルに保存できるようになります。
以下の記事からの引用ですが、有償ライセンスで作成したtwbxファイルもTableau Desktop Public Editionで開くことができるようです!
また、Shared Dimension、Composable Data Sources、VizQL Data Services API、については下記の記事で詳しく説明がされています。
Tableau 2024.2ももうすぐリリースとなるようです。個人的には、PrepのS3出力機能が嬉しいですね!
Data Catalog
Secoda
SecodaがGoogle Cloud Marketplaceで利用可能に
SecodaがGoogle Cloud Marketplace経由で利用可能になったとリリースがありました。これにより、Google Cloudアカウントをお持ちの方は取り扱いまでのプロセスが簡素化されることに加え、Google CloudのクレジットもSecodaのサブスクリプションに活用できるとのことです。
個人的には、SecodaはまだAWS Marketplaceでの取り扱いをしていないので、先にGoogle Cloud Marketplaceで取り扱いを始めたというのが興味深いです。
CastorDoc
CastorDoc AI Assistant機能がSlackでも使えるように
CastorDocのAI機能であるAI Assistantが、Slack経由でも使えるようになりました。Slack上でデータに関する質問が完結できるのが嬉しいですね。