[2024年4月10日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Google Cloud Next '24が開催中
現地時間の2024年4月9日~11日に、Google Cloud Next '24が開催されています。
データ分析基盤に関連するところだと、Gemini in Looker、Gemini in BigQuery、Gemini in Lookerなどの発表が該当すると思います。データ分析関連の発表は下記のブログにまとまっています。
個人的には、BigQuery Data Canvasが印象に残っています!自然言語ベースで可視化しながらMiroのようなUIでデータ分析を行える面白い機能だなと感じました。
With the new data canvas of Gemini in BigQuery, explore datasets and create customized visualizations—all using natural language prompts. #GoogleCloudNext pic.twitter.com/kEBR6LO9Fh
— Google Cloud (@googlecloud) April 9, 2024
弊社も現地参加メンバー含めてレポートブログを書いておりますので、ぜひこちらも併せてご覧ください。
2024 State of Analytics Engineering
dbt Labs社がまとめた、Analytics Engineeringの現状をまとめたレポートの2024年版が公開されています。
世界各国のデータに関わる実務者及びリーダー456名にアンケートを行った結果をまとめており、給料、業務の比率、データチームの課題、データチームの価値、2024年の投資分野、について言及があります。
このレポートのハイライトと主要な調査結果に関しては、以下のブログにまとめられています。
The Business Side of the Modern Data Stack
SDF社のブログで、Modern Data Stackのビジネス面について直面している様々な疑念や課題について言及した記事が出ていました。
個人的に気になったのは下記の一文で、「SaaS Analytics」分野におけるベンチャーキャピタルの投資額は2022年の$10Bから2023年の$6.6Bで、33%も減っているとのことです。
In the SaaS Analytics business venture capital investments dropped 33% from over $10B in 2022 to $6.6B in 2023 (2024 is looking even more bleak).
YAML developers and the declarative data platforms
データエンジニアリングにおいてYAMLを主体とした宣言型の定義が普及していますが、これにより開発者はより簡単にデータプラットフォームを管理し、より信頼性の高いデータ配信を実現できるようになっていると言及している記事が出ていました。
個人的にも、Xでフォローしているデータエンジニアのみなさんが「最近YAMLばかり書いてる…」のような言及をしているのを何度も見かけているのですが、「それは悪いことではないんだよ!」ということを主張してくれる良い記事だなと感じましたw
Data Extract/Load
Fivetran
Fivetranが2024 Google Cloud Technology Partner of the Yearを3年連続で受賞
Fivetranが2024 Google Cloud Technology Partner of the Yearを受賞しました。3年連続とのことです。
Airbyte
Record Change History機能を発表
Airbyteの新機能として、レコードサイズのオーバーフローや型キャストの問題が発生したときに、該当カラムのレコードの値をNULLにし、_airbyte_meta
列に問題の理由を追記する「Record Change History」という機能が発表されました。
正直この機能が良く働く場面もあれば悪く働く場面もあるのではと感じているため実運用時には注意が必要な機能だと思いますが、今まで聞いたこと無い発想の機能だったため、気になりました。
Data Warehouse/Data Lakehouse
Snowflake
SamoohaをベースとしたData Clean Room機能をリリース ※AWSの一部リージョンでパブリックプレビュー
Snowflakeが新しく、SamoohaをベースとしたData Clean Room機能をリリースしました。
Samoohaは2023年12月にSnowflakeが買収しており、Samoohaは企業名と同名のData Clean Roomアプリケーションを提供していました。
従来のSnowflakeで実装するData Clean Roomは、データシェアリングとマスキングポリシーなどの各種ポリシーを駆使して自分で構築するイメージでしたが、このSamoohaをベースとしたData Clean Room機能は1つのアプリケーションとして提供されるものとなっています。
まだ日本のリージョンでは使用することができませんが、本機能に関する公式ドキュメントも充実しております。気になる方はぜひご覧ください。
Data Quality and data metric functionsがパブリックプレビュー
データ品質をモニタリングするための関数を使用できるData Quality and data metric functionsがパブリックプレビューとなりました。テーブルと紐づけることで、指定した時間ごとに自動でチェックしDATA_QUALITY_MONITORING_RESULTSビューに結果を追記させることも出来るようです。
公式ドキュメントからの引用ですが、デフォルトのSystem DMF(Data Metric Functionsの略)は下図のものが入っているようです。
また、ユーザー独自のDMFを定義することも可能です。下記リンク先のチュートリアルでは正規表現を用いた品質チェックを行うDMFを定義しているため、参考になると思います。
SnowflakeにGitリポジトリ連携できる機能がリリース ※パブリックプレビュー
SnowflakeにGitリポジトリ連携できる機能がリリースされました。具体的には、GitリポジトリのファイルがSnowflakeの「repository stage」という特殊なステージに同期できるようになりました。
実際に本機能を試しているブログが下記のリンク先です。どのように使うかのイメージを付けたい場合にはぜひご覧ください。
SnowflakeとSalesforceデータクラウド間の双方向データシェアリングが一般提供開始
SnowflakeとSalesforceの間で、双方向のデータシェアリングが一般提供となりました。
Snowflake VentureがGUIベースでデータ変換パイプラインを構築できるCoalesceに投資
Snowflake VentureがGUIベースでデータ変換パイプラインを構築できるCoalesceに投資したことを発表しました。
Coalesce社のブログでも言及されており、Snowflake Ventureからの資金調達もあわせ、シリーズBの資金調達で5000万ドルに達したようです。
Coalesce自体は私も一度触ったことがあり、簡単な操作でStagingなどレイヤーわけを行ったテーブルを作成したり、Gitでのバージョン管理、などにも対応しておりGUIツールとしては開発者体験が優れている製品だと感じています。
Snowflakeのリソース管理にTerraformとGitHub Actionsを用いた場合の手順まとめ
私の記事で恐縮ですが、Snowflakeのリソース管理にTerraformとGitHub Actionsを用いた場合の手順をまとめた記事を投稿しました。
最低限の必要なところは抑えていると思いますので、参考になると嬉しいです。
BigQuery
materialized view recommendations機能がパブリックプレビュー
過去30日分のクエリ履歴の特性から、マテリアライズドビューの作成を提案してくれるmaterialized view recommendations機能がパブリックプレビューとなりました。
BigQueryには可能な限りマテリアライズドビューを使用するようにクエリを自動で書き換えるSmart Tuning機能があるため、このrecommendation機能によってマテリアライズドビューをよりうまく使えるようになるのでは、と期待してしまいますね!
Databricks
オープンソースのLLM「DBRX」を発表
Databricks社がオープンソースのLLMとして、DBRXを発表しました。
下記記事からの引用ですが、LLaMA2-70B、Mixtral、Grok-1などのオープンソースモデルを上回る性能を持っていたり、ほとんどのベンチマークでGPT-3.5を上回っているとのことです。
DatabricksSQLのパフォーマンスチューニングに関する記事
DatabricksSQLのパフォーマンスチューニングに関する記事が出ていました。
私自身はDatabricksの知識はないのですが、とても細かくチューニング時のポイントがまとめられていますので、Databricksを使用しているユーザーには参考になる記事だと思います。
Semantic Layer
Cube
LLMを用いた分析機能を提供していたDelphiがCubeに統合
LLMを用いた分析機能を提供していたDelphiがCubeに統合され、Delohi社のDavid 氏とMicheal氏がCube社にフルタイムで参画していると発表がありました。
Google Cloud Next '24でもGemini in Lookerの発表がありましたが、LLM × Semantic Layerの動きが盛り上がってきていると思います!
Data Application
Streamlit
GoogleドライブまたはSharepointに保存されているファイルからの最新情報を使用したリアルタイムRAGアプリ
Streamlitの公式ブログにおいて、GoogleドライブまたはSharepoint上のPDFなどのファイルをStreamlitにアップロードし、RAGを用いてアップロードしたPDFファイルの内容についてチャットでやり取りができるアプリの構築例をまとめた記事が出ていました。
記事上でデモのYouTube動画、GitHubリポジトリ、実際のデモアプリへのリンクもありますので、気になる方はぜひご覧ください。
Data Quality・Data Observability
全般
Best Data Observability tools 2024: RANKED
Orchestra社のブログにおいて、各種Data Observabilityの製品の概要・価格面・長所&短所、について言及した記事が出ていました。
主に以下のツールについて言及しています。(Monte Carloについても言及しているのですが、すごい批判的なのが個人的に気になりましたw)
- New Contenders
- Elementary
- Soda
- Great Expectations
- Mid-Tier Data Observability Tool Offerings
- Sifflet
- Anomalo
- Metaplane
- Datafold
- Open Source Data Observability Platforms
5 Open Source Data Quality Tools – 2024 Edition
Datacoves社のブログで、2024年版のData Quality Toolsについてまとめた記事が出ていました。
dbt Core、Soda Core、Great Expectations、Deequ、Data Diffの5つのOSSについてスクリーンショットと併せて説明があります。どんなData Qualityに関するOSSがあるかざっと知るにはちょうど良い記事だと思います。
Data Orchestration
Dagster
Dagster 1.7に関する記事
Dagsterのver1.7の新機能について言及された記事が出ていました。
4月に発表予定の新しいCloud版である「Dagster +」に向けたアップデートが多いらしいです。個人的にはAssetのカタログ化の機能が気になりました。(下図は記事から引用した、Dagster 1.7におけるAssetの詳細画面)
DagsterのEmbedded ELTに関する記事
DagsterのEmbedded ELTに関する記事が2つ出ていました。1つはdltHubとの連携に関する内容、もう1つは従来からあったSlingを用いたEmbedded ELTのサンプルに関する内容、となっています。
Dagsterのリポジトリが10000star突破
Dagsterの公式Xアカウントより、GitHubのリポジトリが10000starを突破したことに関する投稿がありました。
最近日本のデータエンジニアがDagsterを扱っているところを多く見るようになってきたと感じますが、世界的にもDagsterが伸びているとわかる指標だと思います!
The Dagster GitHub repo has officially reached 10,000 stars!
We appreciate our growing community + the collective effort of the contributors, users, and supporters who believe in making data orchestration more approachable, reliable, and productive.
Here's to the next 10K. pic.twitter.com/dOlGbwg87N
— Dagster (@dagster) March 29, 2024
Airflow
Airflow 2.9.0がリリース
Apache Airflowのver2.9.0がリリースされました。
正直私も追いきれていないですが、詳細は下記のリリースノートをご覧ください。