スポンサーパートナーのサービスを紹介するシリーズ – ChaosSearch Data Lake Platform – #ChaosSearch #reinvent

2021.12.06

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

reinventのスポンサーパートナーで面白そうなものを見つけたのでご紹介します。

ChaosSearch Data Lake Platform

クラウドデータにインデックスを付け、無限のスケール、低コスト、データ移動なし、洞察までの時間の短縮を備えたオープンAPIを通じて、検索、SQL、機械学習の分析を可能にします。

というサービスです。

現在サポートされているクラウドの環境は、 AWSとGCPです

サービスの特徴

ChaosSearchは、 競合するソリューションとは異なり、ChaosSearchは、データ変換やデータ移動を必要とせずに、クラウドオブジェクトストレージ内のすべてのログデータをそのままインデックス化します。

データを変換する、移動するといったことが必要なく、そのままの状態でインデックスを作成し、従来のソーリューションから時間、コスト、複雑さを削減することを目指したサービスですね、。

スケールメリットのあるコスト・パフォーマンス

  • 年間総コストを80%削減でき、データを長期的に保持することが可能(実質的に無制限の総容量)。
    • 「コストvs.保持」のトレードオフを回避でき、データの取り込み速度は、クラウドの能力を最大限に活用しています。
  • レイテンシーを発生させません
    • クラウドの能力を最大限に活用
  • 1日に数十テラバイトを処理

データ移動なし

  • 元データのスキーマ(S3などにある)を自動検出しながら、ChaosSearchのクラウド環境でデータをインデックス化
  • 新しいデータソースを簡単に追加できる

ユーザーの行動を変えない

  • ElasticsearchやSQLなどのオープンAPIを介して、ユーザーにマルチモデルのデータアクセスを提供
  • KibanaがChaosSearchのプラットフォームに含まれている
  • エンドユーザは自分の好きなツールで作業ができ、データ管理もシームレスに行える

価格

Cloudで使用する場合と、ユーザーが所有しているVPCに展開する場合の2つのサービスがあります。

現時点で(2021/12/06) クラウドの方は、1GBあたり80セントとかなり安いのではないでしょうか。

※ 最小平均日次データ取り込みが適用される

他のソリューションと比較しても費用がかなり抑えられてますね

サービスの機能

Chaos Index®

ChaosSearchの中核をなすもの。

導入時に、ChaosSearchはクラウド環境にお客様のログデータのインデックスを構築し、新しいデータが書き込まれると継続的に更新します。

インデックスの作成は帯域外の並列プロセスでおこなわれるため、データ取り込みのパフォーマンスには影響を与えません。

インデックスはデータ規模に応じて拡張され、容量は無制限。全てのデータを検索可能となり、高度な分析ができるようにしてくれている。

Chaos Refinery®

元のログデータを操作したり移動したりすることなく、「仮想」のデータ変換を可能にするもの。

これによりユーザーは複雑なインデックスや取り込みの手順を気にすることなく、データを操作し、実験することができます。

仮想データ構造やスキーマを変更することも可能で、その場で変更しビューやクエリを作成することができます。

Chaos Fabric®

ステートレスアーキテクチャで、ストレージ、コンピュート、サービスの各レイヤーを賢くまとめて、

弾力性のあるスケーリングを実現、シームレスな拡張性を提供する。

99.999%のアップタイムを保証しているとのことです。

まとめ

ChaosSearchの特徴などをご紹介しました。

複雑なデータパイプラインが必要とせず、ネイティブスキーマを自動検出しながら、移動や変換なしにすべてのデータをそのままインデックスに登録してデータを利用できる といったサービスで、かなり革新的なサービスとのことでした。

※ ChaosSearchアーキテクチャは特許取得済み

無制限に利用でき、コストも削減できるとなると大量のデータを扱う人たちにとってはより良いサービスの可能性がありますね。

ChaosSearchは無料トライアルが提供されているので、次回は 実際に使ってみた をお届けできればなと思います。