スポンサーパートナーのサービスを紹介するシリーズ – ChaosSearch Data Lake Platform – #ChaosSearch #reinvent
reinventのスポンサーパートナーで面白そうなものを見つけたのでご紹介します。
ChaosSearch Data Lake Platformは
クラウドデータにインデックスを付け、無限のスケール、低コスト、データ移動なし、洞察までの時間の短縮を備えたオープンAPIを通じて、検索、SQL、機械学習の分析を可能にします。
というサービスです。
※ 現在サポートされているクラウドの環境は、 AWSとGCPです
サービスの特徴
ChaosSearchは、 競合するソリューションとは異なり、ChaosSearchは、データ変換やデータ移動を必要とせずに、クラウドオブジェクトストレージ内のすべてのログデータをそのままインデックス化します。
データを変換する、移動するといったことが必要なく、そのままの状態でインデックスを作成し、従来のソーリューションから時間、コスト、複雑さを削減することを目指したサービスですね、。
スケールメリットのあるコスト・パフォーマンス
- 年間総コストを80%削減でき、データを長期的に保持することが可能(実質的に無制限の総容量)。
- 「コストvs.保持」のトレードオフを回避でき、データの取り込み速度は、クラウドの能力を最大限に活用しています。
- レイテンシーを発生させません
- クラウドの能力を最大限に活用
- 1日に数十テラバイトを処理
データ移動なし
- 元データのスキーマ(S3などにある)を自動検出しながら、ChaosSearchのクラウド環境でデータをインデックス化
- 新しいデータソースを簡単に追加できる
ユーザーの行動を変えない
- ElasticsearchやSQLなどのオープンAPIを介して、ユーザーにマルチモデルのデータアクセスを提供
- KibanaがChaosSearchのプラットフォームに含まれている
- エンドユーザは自分の好きなツールで作業ができ、データ管理もシームレスに行える
価格
Cloudで使用する場合と、ユーザーが所有しているVPCに展開する場合の2つのサービスがあります。
現時点で(2021/12/06) クラウドの方は、1GBあたり80セントとかなり安いのではないでしょうか。
※ 最小平均日次データ取り込みが適用される
他のソリューションと比較しても費用がかなり抑えられてますね
サービスの機能
Chaos Index®
ChaosSearchの中核をなすもの。
導入時に、ChaosSearchはクラウド環境にお客様のログデータのインデックスを構築し、新しいデータが書き込まれると継続的に更新します。
インデックスの作成は帯域外の並列プロセスでおこなわれるため、データ取り込みのパフォーマンスには影響を与えません。
インデックスはデータ規模に応じて拡張され、容量は無制限。全てのデータを検索可能となり、高度な分析ができるようにしてくれている。
Chaos Refinery®
元のログデータを操作したり移動したりすることなく、「仮想」のデータ変換を可能にするもの。
これによりユーザーは複雑なインデックスや取り込みの手順を気にすることなく、データを操作し、実験することができます。
仮想データ構造やスキーマを変更することも可能で、その場で変更しビューやクエリを作成することができます。
Chaos Fabric®
ステートレスアーキテクチャで、ストレージ、コンピュート、サービスの各レイヤーを賢くまとめて、
弾力性のあるスケーリングを実現、シームレスな拡張性を提供する。
99.999%のアップタイムを保証しているとのことです。
まとめ
ChaosSearchの特徴などをご紹介しました。
複雑なデータパイプラインが必要とせず、ネイティブスキーマを自動検出しながら、移動や変換なしにすべてのデータをそのままインデックスに登録してデータを利用できる といったサービスで、かなり革新的なサービスとのことでした。
※ ChaosSearchアーキテクチャは特許取得済み
無制限に利用でき、コストも削減できるとなると大量のデータを扱う人たちにとってはより良いサービスの可能性がありますね。
ChaosSearchは無料トライアルが提供されているので、次回は 実際に使ってみた をお届けできればなと思います。