[2024年11月20日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この3週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Data Extract/Load
Fivetran
Connector SDKのBeta版をリリース
Fivetranがユーザー側でカスタムのコネクタを開発デプロイするための「Connector SDK」のBeta版をリリースしました。
Connector SDKを使うと、Fivetranと同じ機能を備えたコネクタを開発可能とのことです。(例:増分更新、ソースデータの型の推論、スキーマ定義の自動更新、レコードの論理削除、など)
Quickstart Setup Guideなど、各ドキュメントも併せて公開されています。
2025年1月1日よりFivetranのTransformations機能でdbt CoreとQuickstart data modelsを用いた場合に費用が発生します
2025年1月1日よりFivetranのTransformations機能でdbt CoreとQuickstart data modelsを用いた場合に費用が発生するというアナウンスがありました。
この新しい価格体系について、私も1つブログにまとめていますのでこちらも参考になるかと思います。
Airbyte
1.2.0がリリース
Airbyteの最新バージョンである1.2.0がリリースされました。
「SFTP Bulk」のソースからS3に対して非構造化データを転送する機能が追加されたのが、特に気になりました。
Data Warehouse/Data Lakehouse
Snowflake
CREATE OR ALTERコマンドがロール・データベース・スキーマ・ステージ・ビュー・ウェアハウスに対応
オブジェクトがなければCREATE文で作成、あれば指定したオプションで修正するALTER文を実行、ということができるCREATE OR ALTER
コマンドについて、ロール・データベース・スキーマ・ステージ・ビュー・ウェアハウスに対応したことを発表しました。
私もこの機能を試してブログにまとめています。こちらも参考になると嬉しいです。
Snowsight上でのData Lineage機能がパブリックプレビュー
Snowsight上で各オブジェクト間のデータリネージを見ることが出来る機能がパブリックプレビューとなりました。
下図は私が書いたブログからの引用ですが、このような形でリネージを見ることができます。
Cortex AnalystがMulti-turn conversationとJoinをサポート ※パブリックプレビュー
Cortex AnalystがMulti-turn conversationとJoinをサポートするリリースがありました。(現在はパブリックプレビューです。)
Multi-turn conversationにより以前の質問内容に追加で質問することが可能になり、Joinをサポートすることで複数テーブル間の結合が必要な分析も可能になります。
別途このアップデートも含めた最新情報をまとめた記事が公開されています。
Cortex Analystを用いてSlackから問い合わせて分析結果を得る方法
Summitなどのデモでも有名なDash氏より、Cortex Analystを用いてSlackから問い合わせて分析結果を得る方法について実装手順をまとめた記事が出ていました。
Hybrid tablesが一般提供
単一のデータベース内でOLTPとOLAPどちらのワークロードにも対応するHybrid tablesが一般提供となりました。
注意事項として、クローンができなかったり、タイムトラベルのクエリも一部制限があったり、通常のテーブルと全く同じように扱えるわけではないため、ご注意ください。(詳細は下記のドキュメントをご覧ください。)
Snowflake CLIが全てのパブリッククラウドで一般提供
公式のリリースノートではなくMediumの記事からの情報のですが、Snowflake CLIが全てのパブリッククラウドで一般提供となったと下記の記事で言及がありました。
Snowflake CLIでは、Snowpark・SPCS・NativeApp・Streamlit等に関する操作やデプロイをCLIベースで実行できるようになり、GitHub Actionsなどと併用することでCI/CDパイプラインを構築することもできるツールとなっています。
BigQuery
Dataplex automatic discoveryがパブリックプレビュー
GCS内のデータをスキャンしてメタデータを抽出化し、BigLake/外部テーブルとオブジェクトテーブルが作成され、Dataplexにカタログ化出来る機能としてDataplex automatic discoveryがパブリックプレビューとなりました。
Data Transform
dbt
2024年10月に発表・リリースされたdbt Cloudの新機能まとめ
dbt Labs社の公式ブログより、2024年10月に発表・リリースされたdbt Cloudの新機能まとめ記事が出ていました。10月はCoalesceもあったので盛りだくさんですね。
dbtのdata testで任意の設定をconfigで指定できるようになり、各data testでSnowflakeのウェアハウスを指定できるようになりました
まだベータ版ですがdbt-core v1.9.0b1で、dbtのdata testで任意の設定をconfigで指定できるようになり、具体例をあげると各data testでSnowflakeのウェアハウスを指定できるようになりました。
Snowflakeユーザーからするとかなり熱い機能だと感じたので、私も試してブログにしてみました。
dbtのIncremental ModelのマクロをSnowflake向けに改良し、delete+insertで指定した日付でスキャンを絞り込めるようにした例
9月の記事なのですが、dbtのIncremental ModelのマクロをSnowflake向けに改良し、delete+insertの処理の実行時に指定した日付でスキャンを絞り込めるようにした例が出ていました。
Business Intelligence
Looker
Lookerのロードマップイベント「AI for BI Innovation Roadmap Webinar」が開催
Lookerで今後提供予定の機能などを紹介するロードマップイベント「AI for BI Innovation Roadmap Webinar」が、日本時間の2024年11月13日の3:00~4:00に開催されました。
この中で公開された新情報のみを下記のブログでまとめています。個人的には、LookMLの新しいMeasure Typeであるperiod_over_periodが一番テンションが上がりました!
Lookerの中でLooker Studioが使えるようになる「Studio in Looker」がパブリックプレビュー
Lookerの最新版である24.18で、Lookerの中でLooker Studioが使えるようになる「Studio in Looker」という機能がリリースされました。(2024年11月20日時点ではプレビュー機能です。)
私もこの機能を試してみて、下記のブログにまとめています。ぜひ併せてご覧ください。
ThoughtSpot
ThoughtSpotのAI機能である「Spotter」が一般提供
ThoughtSpotのAI機能である「Spotter」が一般提供となりました。
Data Catalog
Atlan
dbtのSourceとModel間の列レベルリネージがリリース
Atlanより、dbtのSourceとModel間の列レベルリネージがリリースされました。
Select Star
UIの刷新・Airflowとの連携機能・Relevant Lineageなど、新機能をリリース
Select Starが、UIの刷新・Airflowとの連携機能・Relevant Lineageなど、新機能をリリースしました。
個人的にはRelevant Lineageが気になっています、閲覧しているアセットで実際に使われていない上流のアセットを除外して表示できるようです。
Alation
Salesforce Connector、Coalesceとの統合機能を発表
Alationが新機能として、Salesforce Connector、Coalesceとの統合機能を発表しました。
私も下記の記事を見ただけですが、Salesforce Data CloudにAlationのメタデータをSyncすることができるようです。
Data Activation (Reverse ETL)
Census
Top 10 LLM prompts for RevOps and Marketing Teams
CensusにはGPT Columnsという自然言語ベースで加工を行って結果をカラムとして追加できる機能があるのですが、そのGPT Column用のプロンプトの例をまとめた記事が「Top 10 LLM prompts for RevOps and Marketing Teams」というタイトルで出ていました。
Data Quality・Data Observability
Monte Carlo
Monte Carlo社の年次イベント「IMPACT」が開催
Monte Carlo社の年次イベント「IMPACT」が開催されました。
Monte Carlo社の公式ブログより、KeynoteのRecapブログも出ていました。大きく以下について言及がありました。
- データのダウンタイムが発生する3つの主な要因は、「System failed」「Buggy code」「Source data changes」
- Data Products、Data Profiling、Data Quality Dashboard、Data Operations Dashboard、GenAI Monitor Recommendationsの紹介
- Microsoft Fabricとの統合機能の発表
Metaplane
MetaplaneがSnowflake向けのNative Appsをリリース ※パブリックプレビュー
MetaplaneがSnowflake向けのNative Appsをリリースしました。現在はパブリックプレビューとのことです。
記事上で既存のSnowflakeクレジットを使用する形で利用できると言及があったため、気になる方はぜひお試しください。