モダンデータスタック カテゴリ紹介 #25 『Data Mesh(データメッシュ)』 – Modern Data Stack Categories Overview Advent Calendar 2023
当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 25日目のエントリです。
- Modern Data Stack Categories Overviewのカレンダー | Advent Calendar 2023 - Qiita
- Modern Data Stack Categories Overview Advent Calendar 2023 の記事一覧 | DevelopersIO
データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack/MDS)』という考え方、サービス構成が大きな注目を浴びています。データの収集、処理、保存、分析に使用されるツールとクラウドデータサービスを集めたソリューションを指す言葉です。クラスメソッドとしてもこのモダンデータスタック(Modern Data Stack/MDS)を推しており、下記の内容でお客様にサービスとして提供しています。
このモダンデータスタックという考え方、現在では構成するサービス群のジャンルが非常に多岐に渡ってきています。このカテゴリ分けも正直企業や個人によって定義が分かれていたりするのですが、『Modern Data Stack - Everything that you need to know !』というサイトではこのカテゴリ分類がシンプルかつ分かりやすく展開されています。このアドベントカレンダー企画では、このサイトで展開されているカテゴリ毎について内容を理解することで見識を広め、今後のサービス展開・サービス選択を検討する足掛かりとして行きたいと思います。
当エントリでは、Modern Data Stack(MDS)におけるカテゴリ『Data Mesh(データメッシュ)』の内容について紹介します。
目次
モダンデータスタック(Modern Data Stack/MDS)における『データメッシュ』とは
アドベントカレンダー企画の趣旨については1日目のエントリ内『当アドベントカレンダー企画について』をご参照ください。
データメッシュは、Zhamak Dehghaniによって創設されたアプローチで、企業のデータ管理に対する分散化された、分散型のアプローチを指します。さまざまなデータセットを分散した製品としてとらえ、ドメインを中心に据えた全体的な概念です。各ドメインに特化したデータセットには、そのデータを管理し、他のチームが利用できるようにするためのエンジニアやプロダクト・オーナーが組み込まれており、データのオーナーシップと責任のレベルを高めることができます。
- データメッシュの「分散戦略」
- データ メッシュの分散戦略では、データの所有権が、データを製品として管理・所有・提供するドメイン固有のチームに分散される
- データメッシュの「主な目的」
- データの可用性とアクセシビリティの課題をスケールアウトすること
- データ・メッシュによって、ビジネス・ユーザーもデータ・サイエンティストも、データ・チームの専門家が介入することなく、事実上あらゆるデータ・ソースから、あらゆる場所で、ビジネスの洞察にアクセスし、分析し、運用できるようになる
- データメッシュはデータをアクセス可能、利用可能、発見可能、安全、相互運用可能にする
- クエリデータへのアクセスが高速化されることで、データ輸送の必要なく、価値実現までの時間が短縮される
- 現在のデータ・プラットフォームが抱える3つの問題とデータメッシュの対応
- (1).これまで企業は膨大なデータを処理するために「集中化戦略」を敷いていたが、中央集権化では分析のためにエッジロケーションから中央のデータレイクにデータをインポート/転送する必要があり、時間とコストがかかる
- データ・メッシュの分散型アーキテクチャは、データを各ビジネス・ユニットの個別のドメイン所有権を持つ製品と見なす
- 分散型データ所有モデルにより、事業部門やオペレーション・チームが「非中核」データに迅速かつ容易にアクセスし、分析できるようになる
- 洞察に要する時間が短縮され、価値創造に要する時間も短縮される
- (2).グローバルなデータ量が増加し続ける中、集中管理モデルのクエリー手法では、データパイプライン全体の変更が必要となり、規模に応じた対応ができない/できなくなる
- データメッシュは、データセットの所有権を中央からドメイン(個々のチームやビジネス・ユーザー)に委譲し、ビジネスの俊敏性と規模に応じた変化を可能にする
- データメッシュ・アーキテクチャは、イベントが発生してから分析のために消費/処理されるまでの時間と空間のギャップを埋めることで、企業をリアルタイムの意思決定へと導く
- (3).データ転送は、特定の地域や法的管轄権にデータが保存されている場合、データ移行を禁止するデータレジデンシーやプライバシーガイドラインの影響を受けやすい。またデータガバナンス規制を遵守することは、時間と手間がかかり、チームが競争優位性を維持するための重要なビジネスインテリジェンスに必要なデータ処理や分析を大幅に遅らせる可能性がある
- 分散型データ管理では、ドメインがデータ製品の品質、セキュリティ、転送に責任を持つ
- データメッシュは、技術的なユーザもそうでないユーザも、データセットが存在する場所に直接アクセスし、クエリを実行できるようにする接続レイヤーを提供する
- (1).これまで企業は膨大なデータを処理するために「集中化戦略」を敷いていたが、中央集権化では分析のためにエッジロケーションから中央のデータレイクにデータをインポート/転送する必要があり、時間とコストがかかる
- データメッシュのユースケース
- ITとDevOps
- セールスとマーケティング
- AIと機械学習トレーニング
- 損失防止
- グローバルビジネス
その他データメッシュに関しては下記の情報などをご参照ください。
MDSにおける主なデータメッシュ系サービス
ここではモダンデータスタックにおける『データメッシュ』のカテゴリで主だったサービスについて幾つか言及していきたいと思います。(ここでの評価はユーザーによるサイト内でのLIKEの数が多いものを中心に見ていきます)
Starburst
17日目で登場したStarburstがここでもエントリ。
詳細は投稿済みのこちらのエントリをご参照ください。
Nexla
Nexlaは、コラボレーティブなセルフサービス型データ統合・運用プラットフォームです。当社のコード不要のツールにより、デジタルチームは、顧客、パートナー、SaaSサービスなどのエコシステムから得られる多様なデータとともに、自社のデータを迅速かつ容易に活用することができます。Nexlaは、データ運用とプロダクションフローを完全に自動化しながら、データ発見、カタログ、統合、準備の全サイクルを加速します。
その他Nexlaに関する基本的な情報は以下の通り。
Cinchy
Cinchyは世界をリードするエンタープライズ・データ・コラボレーション・プラットフォームです。Cinchyはデータメッシュの原理を利用し、データをアプリケーションのサイロから解放し、連携されたデータ製品のネットワークに変換します。Cinchyは、チーム、システム、AIがリアルタイムでデータを「共同生産」することを簡単かつ安全に実現します。
その他Cinshyに関する基本的な情報は以下の通り。
dbt(dbt Mesh)
専門サービスという立て付けではありませんが、dbtでもデータメッシュに関する機能があります。
まとめ
という訳で、『Modern Data Stack Categories Overview Advent Calendar 2023』25日目の記事、データメッシュに関する紹介エントリでした。
『アドベントカレンダー企画』という枠組みでは「25日で完走」というのが一般的ですが、当企画は『もうちっとだけ続くんじゃ』ということで追加で5日程継続したいと思います。
明日26日目は『Managed Data Stack(マネージドデータスタック)』に関する内容となります。お楽しみに!