[2026年1月28日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Agentic Browsing Is Here. Is Your Analytics Stack Ready?
Snowplow社が、AIエージェントによるWeb閲覧(Agentic Browsing)の急増と、それに伴う分析データの信頼性低下に関する記事を公開しました。
記事によると、Perplexity CometやChatGPT AtlasなどのAI搭載ブラウザによるトラフィックが前年比6,900%増加しています。しかし、Google Analytics 4などの従来のツールはこれらを人間と区別できず、A/Bテストの汚染やコンバージョン率の誤認といったビジネスリスクを引き起こしています。
この問題の対策として、Snowplow社ではマウスの動き(人間特有の迷いや非線形な動きに対し、エージェントは直線的で効率的)などの行動分析を用いた検知ソリューションの開発を進めているとのことです。
Data Extract/Load
Airbyte
Agent Engineがプライベートプレビューでリリース
Airbyteが、AI Agent向けの新たなサービスである「Airbyte Agent Engine」をPrivate Previewとしてリリースしました。(記事ではwe announced agent connectors, open source Python connectorsと言及がありますが、このURLからプライベートプレビューの申請が必要なようです。)
以下のリンク先の記事では、AI Agentが外部のSaaS(Zendesk, Salesforce, GitHubなど)と連携する際に生じる、OAuthの実装、レートリミットの管理、APIごとのスキーマ対応といった「統合作業」の負担が大きいことを指摘しています。これらを解決するために、Airbyteの既存のエコシステムを活用した各SaaSへの認証・キャッシュ周りをサポートする機能として、Agent Engineがリリースされました。
また、記事にはサンプルコードも書いてあり、Pythonで10行程度のコードを書くだけでリアルタイムなデータの読み書きが可能になり、Agent開発者がロジックに集中できる環境を提供するとのことです。
Data Warehouse/Data Lakehouse
Snowflake
Semantic Viewをクエリする際の構文がより標準的なSQLの構文に変更
Semantic Viewをクエリする際の構文がより標準的なSQLの構文に変更されるアップデートがありました。
具体的には、以下のような変更がありました。従来の構文だとSEMANTIC_VIEWで使用するDIMENSIONSやMETRICSを明示的に記述する形でしたが、新しい構文ではFROM句にSemantic View名を記載してGROUP BYを用いてディメンションを指定する標準的なSQLの構文になっております。
- 従来の構文
SELECT * FROM SEMANTIC_VIEW(
customer_order_analysis
DIMENSIONS customer.customer_market_segment
METRICS orders.total_revenue, orders.average_order_value
)
ORDER BY customer_market_segment;
- 新しい構文
SELECT
customer_market_segment,
AGG(total_revenue) AS revenue,
AGG(average_order_value) AS avg_value
FROM customer_order_analysis
GROUP BY customer_market_segment
ORDER BY customer_market_segment;
より詳しい制約などは以下のSnowflake社の高田さんの記事が大変参考になりますので、こちらも併せてご覧ください。(上述のサンプルSQLもこちらの記事より引用しています。)
Snowsight上でOpenLineageと互換性のあるリネージデータを表示できるように
Snowsight上でOpenLineageと互換性のあるリネージを表示できる機能がプレビューとして提供されました。
より具体的には、dbtやApache Airflowなどの外部ツールからSnowflakeのREST endpointに対しOpenLineage互換のイベントを送信することで、Snowflakeのデータパイプライン全体の動きを単一のビューで把握できるようになります。
Databricks
Databricks Oneが一般提供
Databricks OneがGenerally Availableとなりました。
Databricks Oneは、ビジネスユーザー向けに設計された簡素化されたユーザーインターフェースで、ダッシュボードの閲覧&対話、Genieを用いた自然言語での質問、Databricks Appの使用、などが可能です。
Lakebaseが一般提供
LakebaseがGenerally Availableになりました。
Lakebase AutoscalingとLakebase Provisionedが単一のUIに統合されたほか、GAに併せて以下の機能がアップデートされています。(リリースノートからの引用です。)
- autoscaling
- scale-to-zero
- instant branching
- automated backups
- point-in-time recovery
- 最大8TBのstorage
- regionの拡大
Lakebaseについてはパブリックプレビュー時に弊社でも記事を書いておりますので、併せてご覧ください。
ClickHouse
ClickHouseとネイティブに統合されたマネージドPostgresサービスを発表
ClickHouse社が、ClickHouseとネイティブに統合された、エンタープライズグレードのマネージドPostgresサービスを発表しました。
本サービスは、PostgresとClickHouseを組み合わせたUnified Data Stackを提供するもので、以下のような特徴があります。(AIによる要約です。)
- NVMeストレージを採用し、ディスクI/Oバウンドなワークロードにおいて従来のPostgresサービスと比較して最大10倍のパフォーマンス向上を実現
- ClickPipes(およびOSSのPeerDB)によるCDC機能を内蔵し、PostgresからClickHouseへのリアルタイムデータ同期が可能
- Postgres拡張機能であるpg_clickhouseにより、PostgresをUnified Query Layerとして利用し、SQLの書き換えなしに分析クエリをClickHouseへオフロード可能
- Ubicloudとの提携により、オープンソースファーストな構成(WAL-Gによるバックアップなど)を維持しつつ、ClickHouse Cloudと同等のセキュリティ基準で提供
また、この構成をOSSコンポーネント(Postgres、ClickHouse、PeerDB、pg_clickhouse)で構築するためのアーキテクチャパターンについても、併せて解説記事が公開されています。
ClickHouseがLangfuseの買収を発表
ClickHouseが、LLMを活用したソフトウェア開発のために設計されたモニタリング・デバッグ・分析のプラットフォームであるLangfuseの買収を発表しました。
以下リンク先の記事によると、Langfuseのミッションやロードマップに変更はなく、引き続きOSSとして提供されます。ライセンスの変更予定はなく、Langfuse Cloudや既存のサポート体制も現状のまま継続されるため、ユーザーへの即座の影響はないとのことです。
Onehouse
Onehouse社の2025年の振り返り記事
Onehouse社が2025年の振り返り記事「Onehouse 2025 Year in Review」を公開しました。
記事では、単にOpen DataやLakehouseアーキテクチャを提供するだけでなく、それらを本番環境で確実に動作させ、運用の複雑さやコストの問題を解決するためのプラットフォームへと進化した過程が語られています。
2025年にリリースされた主な機能や取り組みは以下の通りです。(AIによる要約です)
- Onehouse Compute Runtime (OCR)
- 1月にローンチされた、同社のマネージドサービス全体で計算リソースを実行するための基盤。Serverless compute managerとして機能し、Multi-cluster managementやワークロードの最適化を提供します。
- Open Engines
- 4月にリリース。Apache Sparkのパイプラインと並行して、Trino、Flink、Rayといったオープンソースエンジンをワンクリックでデプロイし、ワークロードに適したエンジンを選択可能にしました。
- Quanton execution engineによるSQL + Spark Jobs
- 5月にリリースされた新しい実行エンジン。AWS EMR、GCP Dataproc、Databricksと比較して2〜5倍のコストパフォーマンスを実現したとしています。合わせて、既存のSpark jobを分析するツールCost Analyzer for Apache Sparkも公開されました。
- OneFlow
- 夏にリブランディングされたIngestionプラットフォーム。Apache Hudi、Apache Iceberg、Delta Lakeといったフォーマットへの高速なデータ取り込みを実現します。
- Apache Icebergへのネイティブ対応の強化
- 11月にはQuantonにおけるApache Icebergのネイティブアクセラレーションをローンチし、Apache XTableをブリッジとして利用する構成も含めサポートを強化しました。
- Onehouse Notebooks
- 12月に発表された、インタラクティブなPySparkのためのNotebook環境。ユーザーのVPC内でAutoscalingするクラスタ上で動作します。
Data Transform
dbt
dbt Semantic Layerのyamlの仕様が大幅に変更
dbt Semantic Layerのyamlの仕様が大幅に変更となりました。
以下のような変更が行われています。
semantic_modelがトップレベルではなく、各models配下にネストされる構造に変更- EntitiesとDimensionsが
columns配下に直接定義されるようになり、構成が簡素化 - Measuresが廃止され、
type: simpleのMetricsとして定義するように変更 type_paramsが廃止され、exprなどの設定項目がMetrics定義のトップレベルキーに昇格- Ratio、Derived、Cumulative、Conversionといった高度なMetrics定義における記述形式の変更
以下の公式Docでは、既存のプロジェクトを新仕様に移行するためのツールとしてdbt-autofixが紹介されており、CLIやdbt VS Code extension、dbt Cloud上で移行コマンドを実行する手順も案内されています。
今回の仕様変更に関して、プロダクトマネージャーからブログも公開されています。
Data Orchestration
Prefect
Prefect Horizonを発表
PrefectがAI agentsのためのContext layerプラットフォームであるPrefect Horizonを発表しました。
FastMCPの開発経験を活かし、企業におけるMCPサーバーのデプロイやガバナンスの課題を解決するインフラストラクチャとして、以下の4つの機能を提供するとのことです。
- Horizon Deploy CI/CDやスケーリングに対応したMCPサーバーのマネージドホスティング。
- Horizon Registry MCPサーバーの一元管理と、必要なツールを組み合わせて安全に公開するRemix servers機能。
- Horizon Gateway ツールレベルのRBAC、認証、監査ログなどを提供するコントロールプレーン。
- Horizon Agents ガバナンスが適用された環境でAI agentsを利用するためのユーザーインターフェース。






