モダンデータスタック カテゴリ紹介 #22 『Data Streaming(データストリーミング)』 – Modern Data Stack Categories Overview Advent Calendar 2023
当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 22日目のエントリです。
- Modern Data Stack Categories Overviewのカレンダー | Advent Calendar 2023 - Qiita
- Modern Data Stack Categories Overview Advent Calendar 2023 の記事一覧 | DevelopersIO
データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack/MDS)』という考え方、サービス構成が大きな注目を浴びています。データの収集、処理、保存、分析に使用されるツールとクラウドデータサービスを集めたソリューションを指す言葉です。クラスメソッドとしてもこのモダンデータスタック(Modern Data Stack/MDS)を推しており、下記の内容でお客様にサービスとして提供しています。
このモダンデータスタックという考え方、現在では構成するサービス群のジャンルが非常に多岐に渡ってきています。このカテゴリ分けも正直企業や個人によって定義が分かれていたりするのですが、『Modern Data Stack - Everything that you need to know !』というサイトではこのカテゴリ分類がシンプルかつ分かりやすく展開されています。このアドベントカレンダー企画では、このサイトで展開されているカテゴリ毎について内容を理解することで見識を広め、今後のサービス展開・サービス選択を検討する足掛かりとして行きたいと思います。
当エントリでは、Modern Data Stack(MDS)におけるカテゴリ『Data Streaming(データストリーミング)』の内容について紹介します。
目次
モダンデータスタック(Modern Data Stack/MDS)における『データストリーミング』とは
アドベントカレンダー企画の趣旨については1日目のエントリ内『当アドベントカレンダー企画について』をご参照ください。
データストリーミングとは、連続的なデータストリームのインスツルメンテーションと処理のことを指し、しばしばバッチ処理(トリガーされた間隔でデータセットをストレージからストレージへ移動させる処理)と比較されます。
このパラダイムでは、データは「動いている」と見なされ、データ・ソースでデータ・ポイントが生成されると、将来の処理のためにストレージ・サービスに収集されるのではなく、即座に処理されてコンシューマー・システムに渡されます。今日のソースデータのほとんどは、トランザクション、ログ、センサーデータ、ソーシャルメディアフィード、クリックストリームなど、ストリーミング方式で生成されており、データストリーミングパラダイムでこれらのストリームを処理することで、組織は洞察を得たり、異常や傾向を検出したり、生成中のデータにアクションを起こしたりすることができるようになります。
データストリーミングに関する基本的なポイント、要点は以下の通り。
- データストリーミングの主な利点
- ライブ処理:データが生成されている間に分析し対応することが可能に
- ビジネス価値:適時性の結果としてリアルタイムデータを扱えるようになるということで、データストリーミングは他のシステムではアクセスできないユースケースをターゲットにすることができる
- リソース効率:特性上現在のデータと新しいデータの差分のみを計算、データポイントの追加、修正、削除が簡単にでき、結果は即座に更新される
- スケーラビリティ:大量かつ急速に変化するデータを処理するように設計されているため、データのニーズが変化しても、組織は柔軟に拡張することができるようになる
- 耐障害性:フォールトトレランスを念頭に構築されているので特定の時点で障害から回復する能力を備えているため、分析および運用の両方のワークロードをサポートする上で非常に効率的
- データ操作の簡素化:ストリームは連続的に処理されるため、データ・ストリーミングではデータ・オーケストレーション・サービスが不要に
MDSにおける主なデータストリーミング系サービス
ここではモダンデータスタックにおける『データストリーミング』のカテゴリで主だったサービスについて幾つか言及していきたいと思います。(ここでの評価はユーザーによるサイト内でのLIKEの数が多いものを中心に見ていきます)
Confluent
Confluent Platform は本格的なデータストリーミングプラットフォームであり、継続的なリアルタイムストリームとしてデータに簡単にアクセス、保存、管理することができます。
Apache Kafka® のオリジナルクリエーターによって構築された Confluent は、Kafka の管理またはモニタリングの負担を取り除きながら、エンタープライズグレードの機能で Kafka の利点を拡張します。
その他Confluentに関する基本的な情報は以下の通り。
- Quick Start for Confluent Platform | Confluent Documentation
- Confluent Cloud - Pricing | JP
- Confluent(@confluentinc)さん / X
- Confluent - YouTube
Redpanda Data
Redpandaは開発者のための最新のストリーミングデータプラットフォームです。以下の機能や特徴を兼ね備えています。
- Apache KafkaとのAPI互換
- 組み込み機能によるシングルバイナリデプロイメント
- 統一されたストリーミング API によるクラウドでの階層型ストレージ
- Redpandaは無料のCommunity版と、セルフホストとSaaSの両方の商用オプションを提供
その他Redpandaに関する基本的な情報は以下の通り。
- Redpanda Quickstart | Redpanda Docs
- Redpanda | Compare Redpanda vs Kafka total cost of ownership (TCO)
- Redpanda | Contact Sales
- Redpanda Data(@redpandadata)さん / X
- Redpanda Data - YouTube
Hazelcast
Hazelcastは、企業がストリーミング・データに即座に対応できるようにする統合リアルタイム・データ・プラットフォームです。高性能なストリーム処理機能と内蔵の高速データストアを組み合わせ、ビジネスクリティカルなプロセスとアプリケーションを自動化、合理化、強化します。
その他Hazelcastに関する基本的な情報は以下の通り。
- Getting Started
- Pricing and Subscription Plans | Hazelcast
- Hazelcast(@hazelcast)さん / X
- Hazelcast - YouTube
クラウドベンダーの提供するデータストリーミング系サービス
各種クラウドベンダーにおいても、データストリーミングサービスをそれぞれ展開しています。以下はその一覧です。
まとめ
という訳で、『Modern Data Stack Categories Overview Advent Calendar 2023』22日目の記事、Data Streaming(データストリーミング)に関する紹介エントリでした。
明日23日目は『PLG CRM(Product-led growth CRM)』に関する内容となります。お楽しみに!