[2024年6月6日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Data Extract/Load
Fivetran
「Fivetran Managed Data Lake Service」を発表
Fivetranが新機能として、「Fivetran Managed Data Lake Service」を発表しました。
基本的には、宛先にS3、Azure Data Lake Storage、Microsoft OneLakeを指定してFivetranによるデータロードを実現できる機能となっています。S3は以前からFivetranがDestinationとして対応していましたが、改めてManaged Data Lake Serviceとして力を入れていくことが伺えます。
Airbyte
Airbyteの2024年春のリリースまとめとConnector Builder AIの発表
Airbyte社のブログより、Airbyteの2024年春のリリースまとめ記事が出ていました。
この記事の中で「Connector Builder AI」という機能が発表されており、APIドキュメントのURLを入れるだけでコネクタを自動生成してくれる機能のようです!まだ利用はできない機能ですが、今後が楽しみですね。
Data Warehouse/Data Lakehouse
Snowflake
Data Cloud Summit 2024が開催中
Snowflakeの年次最大のイベントとなる「Data Cloud Summit 2024」が現地時間2024年6月3日~6日で開催しております。
非常に多くの新機能が発表されましたが、目玉としてはこのあたりでしょうか。
- Snowflake Notebooksのパブリックプレビュー
- Snowflake pandas APIのパブリックプレビュー
- Snowflake Cortex Fine-Tuningのパブリックプレビュー
- Apache Iceberg用のオープンソースなカタログであるPolaris Catalogの発表
- ガバナンス機能(総称してSnowflake Horizonと呼んでいる)の強化(AIを用いたDescription自動機能、組織内向けにData Productsを展開できるIntenal Marketplace、各テーブルやビューのアクセス状況を分析できるGovernanceタブ、など)
- GUIベースの操作で簡単にPDFなどのドキュメントを参照するRAGアプリケーションを構築できるSnowflake Cortex Search
- GUIベースの操作で簡単にテーブルデータを参照するRAGアプリケーションを構築できるSnowflake Cortex Analyst
発表された新機能については下記のブログでもまとめております。ぜひこちらも併せてご覧ください。
また、各種Partner of the Yearを受賞した企業一覧がまとまったブログも出ていました。個人的にOmnataとObserveが気になりますね。
Databricks
Tabularの買収を発表
Databricks社が、Apache Icebergを開発した方が創業者であるTabular社を買収したことを発表しました。
下記の記事を見る限り、Delta LakeとIcebergの相互運用性を高めていくことを目指しているようですが、今後の展開が気になるところです。
MotherDuck/DuckDB
DuckDBがメジャーバージョンとなる1.0.0をリリース
DuckDBがメジャーバージョンとなる1.0.0をリリースしました。
下記のブログでこのような言及もあるため、MotherDuckの動向もチェックしないといけませんね。
PS: SOMETHING BIG IS COMING SOON
At MotherDuck, we have also been busy, and we have some exciting news to share with you very soon.
Data Transform
dbt
Ask dbtなどのオリジナル機能を備えたdbt CloudのSnowflake Native Apps版を発表
Snowflakeの年次イベントData Cloud Summit 2024にて、dbt Labs社がAsk dbtなどのオリジナル機能を備えたdbt CloudのSnowflake Native Apps版を発表しました。
下記のブログによると、以下の2つがオリジナル機能として提供予定とのことです。どちらもかなり熱い機能だと思います!!
- Ask dbt:Snowflake Cortex AIからdbt Semantic Layerの内容を参照して、チャット形式でデータについて質問ができる機能 ※ベータ版としてリリース済み
- Snowflakeにデータがロードされたことをトリガーにdbtのジョブ実行をする機能 ※今後提供予定
また、dbt CloudのSnowflake Native Apps版については公式ドキュメントも公開されています。
dbt CloudのCopilot機能である「dbt Assist」についての解説ブログ
dbt Labs社の公式ブログより、dbt CloudのCopilot機能である「dbt Assist」についての解説ブログが出ていました。
以下のブログでは、descriptionの自動生成、data testの自動生成、Semantic ModelとMetricの生成(まもなく公開予定)、についての解説がされています。
dbt Meshが一般提供
dbt Labs社の公式ブログより、dbt Meshが一般提供となったことについてのブログが投稿されていました。
下記のブログでは関連する機能として、Cross-project job triggers、Staging environment、Azure Single Tenant Supportについて言及があります。
dbtの最新機能まとめブログ
dbt Labs社の公式ブログより、dbtの最新機能についてまとめられた記事が出ていました。
The rise of the analytics pretendgineer
元Mode社の創業者であるBenn氏により、「The rise of the analytics pretendgineer」というタイトルで、dbtの使い方とその影響に焦点を当てた記事が出ていました。
具体的には、dbtのおかげでデータモデリング自体は以前よりも簡単になりましたが、理解しやすいデータセットをいかつ作るかの指南やフレームワークがないため、多くのユーザーが「Analytics Pretendgineer」となって技術的負債を抱えたデータモデルの構築に陥っていると述べています。
この記事では更に、「dbtは構造化されたフレームワークのようなものを強制すべき」とも言及しており、それによりデータモデリングがより簡単で持続可能なものとなっていくだろうと述べています。
確かにdbtは開発自由度が高い製品のため、ある程度構成を考えて開発しないとカオスになってしまう面はあると私も思います。dbtもベストプラクティスとなる構成を提案はしていますが、より現場で起こり得る複雑で難解なデータでの推奨構成などがあってもよいのかもしれません。
Data Catalog
Secoda
Secoda AIに関する解説記事
Secoda社の公式ブログより、Secoda AIに関する解説記事が出ていました。
以下はブログからの翻訳引用ですが、誤った情報を返してもそれを間違いだと学習する機能が備わっているようです。
クエリを実行するだけでなく、各インタラクションから学習して適応する AI とのインタラクションを想像してみてください。AI がクエリを記述し、間違った列名を使用するなどの予期しないエラーに遭遇したとします。Secoda AI はただ停止するのではなく、ログ内のエラーを使用して学習し、適応し、再試行して、正しい列名を見つけ出します。Secoda AI は Secoda からデータとメタデータにアクセスし、関連する系統を調べて上流と下流のアセットを確認し、自身を修正して、質問に答える修正されたクエリを書き直します。
OpenMetadata
Ver1.4.0がリリース
OpenMetadataの最新バージョンとして、Ver1.4.0がリリースされました。
SaaS版のみ、Automatorというルールベースでのメタデータ自動登録機能、アセットのCSVによる一括アップロード・ダウンロード、などの機能が追加されています。
OSS版でも使える機能だと、テストで失敗した行のサンプル表示の機能は嬉しいですね!
Data Activation (Reverse ETL)
Hightouch
顧客の属性情報に応じて配信先を分岐できる「Journeys」機能を発表
HightouchがJourneys機能を発表しました。
Audienceの設定後、顧客の属性情報などで分岐させて配信先を分ける、ということが柔軟にできる機能となっています。 他のCDPやMAツールにもある機能なので、DWH + HightouchでのComposable CDPとしての魅力を更に上げてきている印象ですね。
Census
Census上で使用するデータを一元管理するため「Datasets」機能を発表
Censusが、使用するデータを一元管理するため「Datasets」機能を発表しました。
DWHへのSQLクエリ、dbt、Looker、Sigma、KafkaなどのストリーミングデータをDatasetsとして追加することができ、Datasets上でカスタムの計算フィールドや数式カラムを追加することができるようです。
Data Quality・Data Observability
Monte Carlo
Monte CarloのNative AppsがSnowflake Marketplaceで提供開始
Snowflake Data Cloud Summit 2024に併せて、Monte CarloのNative AppsがSnowflake Marketplaceで提供開始されると発表がありました。
Anomalo
AnomaloのNative AppsがSnowflake Marketplaceで提供開始
Snowflake Data Cloud Summit 2024に併せて、AnomaloのNative AppsがSnowflake Marketplaceで提供開始されると発表がありました。
Anomaloについてこのまとめブログで言及するのは初めてだと思いますが、 AI Data Quality Monitoringという形で、AIを用いたデータ品質監視や異常検知に特化したサービスとなっています。
Data Orchestration
Airflow
Astronomer社がAirflowに関するポッドキャストを開始
Astronomer社がAirflowに関するポッドキャストを開始することを発表しました。タイトルは「The Data Flowcast: Mastering Airflow for Data Engineering & AI」です。