[2024年11月20日号]個人的に気になったModern Data Stack情報まとめ

[2024年11月20日号]個人的に気になったModern Data Stack情報まとめ

Clock Icon2024.11.20

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この3週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Data Extract/Load

Fivetran

Connector SDKのBeta版をリリース

Fivetranがユーザー側でカスタムのコネクタを開発デプロイするための「Connector SDK」のBeta版をリリースしました。

Connector SDKを使うと、Fivetranと同じ機能を備えたコネクタを開発可能とのことです。(例:増分更新、ソースデータの型の推論、スキーマ定義の自動更新、レコードの論理削除、など)

https://fivetran.com/docs/changelog#connectorsdk

https://pypi.org/project/fivetran-connector-sdk/0.11.14.1/

Quickstart Setup Guideなど、各ドキュメントも併せて公開されています。

https://fivetran.com/docs/connectors/connector-sdk/setup-guide

https://fivetran.com/docs/connectors/connector-sdk/detailed-guide

2025年1月1日よりFivetranのTransformations機能でdbt CoreとQuickstart data modelsを用いた場合に費用が発生します

2025年1月1日よりFivetranのTransformations機能でdbt CoreとQuickstart data modelsを用いた場合に費用が発生するというアナウンスがありました。

https://www.fivetran.com/blog/a-change-to-our-transformations-pricing-structure

この新しい価格体系について、私も1つブログにまとめていますのでこちらも参考になるかと思います。

https://dev.classmethod.jp/articles/fivetran-transformations-price-change-dbt-core-quickstart-data-models/

Airbyte

1.2.0がリリース

Airbyteの最新バージョンである1.2.0がリリースされました。

「SFTP Bulk」のソースからS3に対して非構造化データを転送する機能が追加されたのが、特に気になりました。

https://docs.airbyte.com/release_notes/v-1.2

Data Warehouse/Data Lakehouse

Snowflake

CREATE OR ALTERコマンドがロール・データベース・スキーマ・ステージ・ビュー・ウェアハウスに対応

オブジェクトがなければCREATE文で作成、あれば指定したオプションで修正するALTER文を実行、ということができるCREATE OR ALTERコマンドについて、ロール・データベース・スキーマ・ステージ・ビュー・ウェアハウスに対応したことを発表しました。

https://docs.snowflake.com/en/release-notes/2024/other/2024-11-12-create-or-alter-pupr

私もこの機能を試してブログにまとめています。こちらも参考になると嬉しいです。

https://dev.classmethod.jp/articles/snowflake-add-some-objects-for-create-or-alter/

Snowsight上でのData Lineage機能がパブリックプレビュー

Snowsight上で各オブジェクト間のデータリネージを見ることが出来る機能がパブリックプレビューとなりました。

https://docs.snowflake.com/en/release-notes/2024/other/2024-11-04-data-lineage

下図は私が書いたブログからの引用ですが、このような形でリネージを見ることができます。

https://dev.classmethod.jp/articles/snowsight-data-lineage/

gjoj4nwzbwsr9mpyervu

q6animpwrw5uiljdvf60

Cortex AnalystがMulti-turn conversationとJoinをサポート ※パブリックプレビュー

Cortex AnalystがMulti-turn conversationとJoinをサポートするリリースがありました。(現在はパブリックプレビューです。)

Multi-turn conversationにより以前の質問内容に追加で質問することが可能になり、Joinをサポートすることで複数テーブル間の結合が必要な分析も可能になります。

https://docs.snowflake.com/en/release-notes/2024/other/2024-11-14-cortex-analyst

別途このアップデートも含めた最新情報をまとめた記事が公開されています。

https://medium.com/snowflake/unlocking-new-capabilities-in-cortex-analyst-multi-turn-conversations-joins-and-more-e77632d99739

Cortex Analystを用いてSlackから問い合わせて分析結果を得る方法

Summitなどのデモでも有名なDash氏より、Cortex Analystを用いてSlackから問い合わせて分析結果を得る方法について実装手順をまとめた記事が出ていました。

https://medium.com/snowflake/integrate-snowflake-cortex-analyst-rest-api-with-slack-0b70bde3cb7b

Hybrid tablesが一般提供

単一のデータベース内でOLTPとOLAPどちらのワークロードにも対応するHybrid tablesが一般提供となりました。

https://docs.snowflake.com/en/release-notes/2024/other/2024-10-30-hybrid-tables-ga

注意事項として、クローンができなかったり、タイムトラベルのクエリも一部制限があったり、通常のテーブルと全く同じように扱えるわけではないため、ご注意ください。(詳細は下記のドキュメントをご覧ください。)

https://docs.snowflake.com/en/user-guide/tables-hybrid-limitations

Snowflake CLIが全てのパブリッククラウドで一般提供

公式のリリースノートではなくMediumの記事からの情報のですが、Snowflake CLIが全てのパブリッククラウドで一般提供となったと下記の記事で言及がありました。

Snowflake CLIでは、Snowpark・SPCS・NativeApp・Streamlit等に関する操作やデプロイをCLIベースで実行できるようになり、GitHub Actionsなどと併用することでCI/CDパイプラインを構築することもできるツールとなっています。

https://medium.com/snowflake/snowflake-cli-ga-is-here-empowering-devops-and-automation-with-a-powerful-command-line-interface-9e60aa691a5a

BigQuery

Dataplex automatic discoveryがパブリックプレビュー

GCS内のデータをスキャンしてメタデータを抽出化し、BigLake/外部テーブルとオブジェクトテーブルが作成され、Dataplexにカタログ化出来る機能としてDataplex automatic discoveryがパブリックプレビューとなりました。

https://cloud.google.com/bigquery/docs/automatic-discovery

Data Transform

dbt

2024年10月に発表・リリースされたdbt Cloudの新機能まとめ

dbt Labs社の公式ブログより、2024年10月に発表・リリースされたdbt Cloudの新機能まとめ記事が出ていました。10月はCoalesceもあったので盛りだくさんですね。

https://www.getdbt.com/blog/whats-new-in-dbt-cloud-november-2024

dbtのdata testで任意の設定をconfigで指定できるようになり、各data testでSnowflakeのウェアハウスを指定できるようになりました

まだベータ版ですがdbt-core v1.9.0b1で、dbtのdata testで任意の設定をconfigで指定できるようになり、具体例をあげると各data testでSnowflakeのウェアハウスを指定できるようになりました。

https://github.com/dbt-labs/dbt-core/releases/tag/v1.9.0b1

Snowflakeユーザーからするとかなり熱い機能だと感じたので、私も試してブログにしてみました。

https://dev.classmethod.jp/articles/dbt-data-test-enable-set-generic-config/

dbtのIncremental ModelのマクロをSnowflake向けに改良し、delete+insertで指定した日付でスキャンを絞り込めるようにした例

9月の記事なのですが、dbtのIncremental ModelのマクロをSnowflake向けに改良し、delete+insertの処理の実行時に指定した日付でスキャンを絞り込めるようにした例が出ていました。

https://medium.com/@AtheonAnalytics/supercharging-dbt-vol-2-how-we-modified-dbts-incremental-materialisation-to-more-than-halve-f5def3ecbe3f

Business Intelligence

Looker

Lookerのロードマップイベント「AI for BI Innovation Roadmap Webinar」が開催

Lookerで今後提供予定の機能などを紹介するロードマップイベント「AI for BI Innovation Roadmap Webinar」が、日本時間の2024年11月13日の3:00~4:00に開催されました。

https://cloudonair.withgoogle.com/events/ai-for-bi-innovation-roadmap-webinar

この中で公開された新情報のみを下記のブログでまとめています。個人的には、LookMLの新しいMeasure Typeであるperiod_over_periodが一番テンションが上がりました!

https://dev.classmethod.jp/articles/looker-ai-for-bi-innovation-roadmap-webinar-20241113/

Lookerの中でLooker Studioが使えるようになる「Studio in Looker」がパブリックプレビュー

Lookerの最新版である24.18で、Lookerの中でLooker Studioが使えるようになる「Studio in Looker」という機能がリリースされました。(2024年11月20日時点ではプレビュー機能です。)

私もこの機能を試してみて、下記のブログにまとめています。ぜひ併せてご覧ください。

https://dev.classmethod.jp/articles/looker-try-studio-in-looker/

ThoughtSpot

ThoughtSpotのAI機能である「Spotter」が一般提供

ThoughtSpotのAI機能である「Spotter」が一般提供となりました。

https://www.thoughtspot.com/blog/introducing-spotter-ai-analyst

Data Catalog

Atlan

dbtのSourceとModel間の列レベルリネージがリリース

Atlanより、dbtのSourceとModel間の列レベルリネージがリリースされました。

https://shipped.atlan.com/explore-column-level-lineage-between-dbt-sources-and-models-1PFwQw

Select Star

UIの刷新・Airflowとの連携機能・Relevant Lineageなど、新機能をリリース

Select Starが、UIの刷新・Airflowとの連携機能・Relevant Lineageなど、新機能をリリースしました。

個人的にはRelevant Lineageが気になっています、閲覧しているアセットで実際に使われていない上流のアセットを除外して表示できるようです。

https://docs.selectstar.com/changelog/november-13-2024-new-navigation-airflow-and-more

Alation

Salesforce Connector、Coalesceとの統合機能を発表

Alationが新機能として、Salesforce Connector、Coalesceとの統合機能を発表しました。

私も下記の記事を見ただけですが、Salesforce Data CloudにAlationのメタデータをSyncすることができるようです。

https://www.alation.com/blog/salesforce-connector-data-trust/

https://www.alation.com/blog/alation-coalesce-data-stack-visibility/

Data Activation (Reverse ETL)

Census

Top 10 LLM prompts for RevOps and Marketing Teams

CensusにはGPT Columnsという自然言語ベースで加工を行って結果をカラムとして追加できる機能があるのですが、そのGPT Column用のプロンプトの例をまとめた記事が「Top 10 LLM prompts for RevOps and Marketing Teams」というタイトルで出ていました。

https://www.getcensus.com/blog/top-10-llm-prompts-for-revops-and-marketing-teams

Data Quality・Data Observability

Monte Carlo

Monte Carlo社の年次イベント「IMPACT」が開催

Monte Carlo社の年次イベント「IMPACT」が開催されました。

https://impactdatasummit.com/#about

Monte Carlo社の公式ブログより、KeynoteのRecapブログも出ていました。大きく以下について言及がありました。

  • データのダウンタイムが発生する3つの主な要因は、「System failed」「Buggy code」「Source data changes」
  • Data Products、Data Profiling、Data Quality Dashboard、Data Operations Dashboard、GenAI Monitor Recommendationsの紹介
  • Microsoft Fabricとの統合機能の発表

https://www.montecarlodata.com/blog-impact-2024-recap/

Metaplane

MetaplaneがSnowflake向けのNative Appsをリリース ※パブリックプレビュー

MetaplaneがSnowflake向けのNative Appsをリリースしました。現在はパブリックプレビューとのことです。

記事上で既存のSnowflakeクレジットを使用する形で利用できると言及があったため、気になる方はぜひお試しください。

https://www.metaplane.dev/blog/introducing-metaplanes-snowflake-native-app-data-quality-at-the-source

https://app.snowflake.com/marketplace/listing/GZTSZ7NSX7E/metaplane-metaplane-data-observability-platform

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.