[2024年5月22日号]個人的に気になったModern Data Stack情報まとめ

2024.05.22

さがらです。

Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。

そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。

※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。

Modern Data Stack全般

使われないものを作るな!出口から作るデータ分析基盤

primeNumber社主催のイベント「データ基盤運用の工数削減に効いた俺的ベストプラクティス データマネジメントの勘所」が2024年5月14日に開催されました。

恐れながら私はこのイベントを視聴できていなかったのですが、セッション「使われないものを作るな!出口から作るデータ分析基盤」の登壇資料として公開された下記の資料が共感できることばかりで素晴らしい資料だったので、本記事で共有させていただきます。

特にこのあたりがとても良かったです。

  • データやツールから作り始めるのではなく、ユーザーのニーズを元に優先度を決めてデータを1つ1つ拡充していく
    • ボトムアップとトップダウンのニーズをどちらも満たせるデータだと社内理解を得やすい
  • データの拡充を一つ一つ振り返しデータ基盤が使えるという反応を得ることで、ユーザーからの基盤への信頼が上がり、さらにニーズが増える
  • DWH層でのモデリングは、共通の分析が見えてきたタイミングで行う

Data Extract/Load

Airbyte

既存のETL・ELTパイプラインをPyAirbyteに移行するための解説記事

Airbyte社のブログにおいて、既存のETL・ELTパイプラインをPyAirbyteに移行するための解説記事が出ていました。

記事では、Pandasで記述されたETLプロセスをPyAirbyteに移行することを例に、PyAirbyteのアーキテクチャ含めて解説がされています。

Data Warehouse/Data Lakehouse

全般

第1回となるIceberg Summitが開催

Dremio社とTabular社の共催で、第1回となるIceberg Summitが開催されました。

下記のリンク先はTabular社のブログですが、どれだけの参加者がいて、どのセッションが人気だったかがまとめられています。録画も公開されていますので、気になる方はぜひご覧ください。

Snowflake

Document AIがパブリックプレビュー

PDFなどの非構造化データからデータを読み取り構造化データに変換できる機能として、「Document AI」がパブリックプレビューとなりました。

Document AIでは、最近Snowflakeが発表した新しいLLM「Arctic-TILT」が使われているとのことです。

Snowflake-Labsのリポジトリ「semantic-model-generator」

私も@rakudejiさんのXでの投稿で知ったのですが、Snowflakeが「semantic-model-generator」という名称でリポジトリを公開しています。

このリポジトリで公開されているCLIツールを用いて下記のようなコマンドを打つことで、dimension、measureの定義を含むSemantic ModelのYAMLを自動で生成してくれる機能が備わっているようです。

python -m semantic_model_generator.generate_model \
    --base_tables  "['<your-database-name-1>.<your-schema-name-1>.<your-base-table-or-view-name-1>','<your-database-name-2>.<your-schema-name-2>.<your-base-table-or-view-name-2>']" \
    --semantic_model_name "<a-meaningful-semantic-model-name>" \
    --snowflake_account="<your-snowflake-account>"

まだ定かではありませんが、SnowflakeがSemantic Layerに参入する可能性を感じさせるCLIツールとなっております。6月のSummitで詳細が明かされるのか…期待したいところです!

Snowflake CLIを利用したStreamlit in Snowflakeアプリの開発、GitHub Actionsを用いたCICD

@mt_musyuさんにより、Snowflake CLIを利用したStreamlit in Snowflakeアプリの開発とCICDを行うための各構成についてまとめられた記事が出ていました。

実際のディレクトリ構成と各ファイルについて説明がされており、大変参考になりました。

Data Transform

dbt

dbt Cloud Launch Showcaseが開催され、多くの新機能が発表

現地時間2024年5月14日に「dbt Cloud Launch Showcase」が開催されました。

本イベントでは多くのdbt Cloudの新機能が発表されています。特にCopilot機能である「dbt Assist」、GUIベースで開発ができる「low-code editor」が目ぼしい機能だと思います。

本イベントで発表された内容については、以下のブログでもまとめられています。差分がわかるCI機能、TableauやPowerBIのダッシュボードをexposureとして自動登録、Semantic Layerのアクセス制御とキャッシング、などが個人的に嬉しい機能ですね。

dbt Labs社のCEOであるTristan氏も、この発表について別途ブログを投稿しています。

dbt-core ver1.8が正式にリリース

現地時間2024年5月10日に、dbt-core ver1.8が正式にリリースとなりました。標準機能としてUnit Testsの機能が追加されたことが一番大きいと思います!

1.8へのアップグレード時の注意点に関するページも公開されています。特に、これまでのGeneric Testの定義がdata_testsとなっている点は多くのユーザーが変更しなければいけないポイントだと思いますので、ぜひご確認ください。(1.8では変更しなくてもエラーにはならないですが、変更を促されるメッセージが出るため早めに変更することが望ましいです。)

devcontainerを用いたアナリスト向けのdbt-core開発環境の構築

devcontainerを用いたアナリスト向けのdbt-core開発環境の構築に関する記事が出ていました。

本記事では接続先がTreasure Dataのためその部分は書き換える必要があると思いますが、devcontainerを使ってdbt-power-userなどのVS Code拡張機能もまとめてコンテナ化しているため、参考になる方は多いと思います。(私は大変参考になりました。)

Semantic Layer

Cube

AI APIとChart Prototypingを発表

Cubeが新機能として、「AI API」と「Chart Prototyping」を発表しました。

AI APIは、Cube上で定義したSemantic Layerに対して自然言語のメッセージを含むリクエストを送ると、対応する集計結果を得るためのCubeのクエリが生成されるAPIとなっています。

Chart Prototypingは、Cube上で作成したグラフに応じて、Chart.jsを用いたReactアプリケーション用のTypeScriptのコードを生成する機能となっています。

Business Intelligence

Looker

Looker 24.8のリリースノートが公開

Looker 24.8のリリースノートが公開されていました。Database connection poolingというこれまでLabs機能だったものが一般提供となります。

Sigma

新たに$200Mの資金調達を発表

Sigmaが$200M(2億USD)の資金調達を行ったことを発表しました。

Sigmaのことは正直あまり調べたことがなかったのですが、スプレッドシートのようなインターフェースでダッシュボードの作成ができるBIツールと理解しています。

Data Catalog

Atlan

新たに$105Mの資金調達を発表

Atlanが$105M(1億500万USD)の資金調達を行ったことを発表しました。

以下は記事から引用して翻訳した内容ですが、Atlan絶好調ですね…!

この新たな資金調達は、AI データの準備とガバナンスの需要が急増する中、Atlan の収益が過去 2 年間で 7 倍以上に膨れ上がり、2024 年第 1 四半期には競争試験での勝率が 75%、エンタープライズ売上高が 400% という驚異的な伸びを達成したことを受けて行われました。現在、同社の顧客ベースには、Cisco、Autodesk、Unilever、Ralph Lauren、FOX、News Corp、Nasdaq、NextGen、Plaid、HubSpot などの業界大手が含まれています。

COMETA

primeNumber社の新サービス「COMETA」がリリース

primeNumber社の新サービスとして「COMETA」がリリースされました。データカタログのサービスとなっております。

私も非常に気になるサービスですので、下記のウェビナーに参加してきました。データ分析のプロセスに関する課題に着目し、各課題をCOMETAがどのように解決できるか、という形で説明されておりとてもわかりやすかったです。

機能面では、メタデータ管理用のテンプレート定義、troccoとの連携でリネージを生成、JOIN分析、クエリエディタ、といった点が私が調査しているModern Data Stack関係のデータカタログと比較してもユニークな機能だと感じました。

Data Quality・Data Observability

Metaplane

Data Observabilityの機能を提供するサービスとしてMetaplaneがありますが、SnowflakeがMetaplaneに投資を行ったことを発表しました。

これを受けてMetaplaneは、Snowflakeのデータパイプライン関係やSnowparkなどアプリ開発関係の機能のサポート、Snowflake Native Appsの開発、を行っていくようです

Datafold

OSSのdata-diffの開発とサポートをやめ、Datafold Cloudに特化することを発表

Datafold社は自社製品のデータ差分チェック機能を「data-diff」というOSSとして提供していましたが、今後はdata-diffの開発とサポートをやめ、Datafold Cloudに特化することを発表しました。

Data Contract

Data Contract CLIから考えるData Contractsファーストのデータパイプラインの未来

@soonraahさんにより、「Data Contract CLIから考えるData Contractsファーストのデータパイプラインの未来」というData Contract CLIを実際に検証してみた記事が公開されました。

内容を見るとまだバグと思わしきところがまだ多そうですが、ただData Contractで定義した内容にデータ型などが合致しているかをテストするだけでなく、定義したData Contractからスキーマ定義をエクスポートしたり、HTML形式でエクスポートして簡易的なData Contractをまとめたカタログ的に提供することもできたり、様々なことができるようです。