[速報] 革新的な新しいハードウェアアクセラレーションキャッシュで他DWHよりも最大10倍高速化! AQUA(Advanced Query Accelerator) for Amazon Redshift が発表されました #reinvent

2019.12.04

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

現在米国ラスベガスで開催されている『AWS re:Invent 2019』。米国時間2019年12月03日(日本時間2019年12月04日深夜)、Amazon Redshiftに関する非常に興味深い機能が発表されました。それが当エントリでご紹介する『AQUA(Advanced Query Accelerator) for Amazon Redshift』です。

特徴と背景

AQUA(Advanced Query Accelerator)は、Amazon Redshiftが他のクラウドデータウェアハウスよりも最大10倍高速に実行出来るようにするために用意された、新しい分散型ハードウェアアクセラレーションキャッシュです。

ストレージを中心に備えた既存データウェアハウスのアーキテクチャの場合、処理を行うためには大規模なデータを計算のためのコンピュートノードに移動させる必要がありました。

このアーキテクチャでは、大きく2点、課題がありました。1つはネットワークの問題です。 今では100Gbpsレベルのネットワークも珍しくなくなりましたが、この部分もデータウェアハウスが成長を続けていくと、いずれはどこかで飽和状態となります。そうするとこの部分がまずボトルネックになります。

また、このネットワークのボトルネックを克服出来たとしても、次に2つめとなるスループットの問題が出てきます。2012年以降の数字でSSDストレージのスループットが12倍となったことに対し、CPUのデータ処理能力は2倍程度。これはすなわち、『ネットワークで克服出来たとしても、CPUでは間に合わない』という状況になり、パフォーマンスの問題が出てきます。

これらの問題を解決するために出てきたのが今回の『AQUA』となります。『他のデータウェアハウスよりも最大10倍早くなる』と謳っている理由・背景としては以下のようなものが挙げられています。

  • 革新的なキャッシュ上でデータ処理の大部分をその場で行うことにより、コンピューティングをストレージ上にもたらすことが出来る
  • AWSが設計したプロセッサとスケールアウトアーキテクチャを使うことで、従来のCPUで出来ることを超えた『データ処理の高速化』を実現
  • AWSが設計したプロセッサには以下が含まれており、フィルタリングや集計などの操作を高速化出来る
    • データの暗号化と圧縮を高速化するAWS Nitroチップ
    • FPGAに実装されたカスタム分析プロセッサ
  • データの保存場所と計算クラスター間の不要なデータ移動を排除し、ネットワーク帯域幅の制限を回避出来るようになる

この仕組は複数ノードで大量のデータを並行して処理する事が可能で、データ量の増加に合わせて自動的にスケールアウトします。S3上の大量のキャッシュアーキテクチャを設けてこの構成を実現していることが構成図からも読み取れます。

今回の機能は現在使用しているRedshiftのバージョンと100%互換性が維持されており、既存コードを変更することなく対応・適用可能となっています。

(注:アーキテクチャ画像は下記プレビュー申し込みサイトより参照させて頂きました。)

提供開始時期

アナウンスによると、このサービス・機能は2020年半ば頃には使えるようになるとのことです。非常に楽しみですね!

プレビューの申し込み

プレビューは下記フォームから申し込み可能となっています。

既存性能が最大で10倍も早くなるなんて、これはもう楽しみでしかないですね!早く使ってみたいです。早速プレビューの申し込みも済ませました!!

以上、日本からのライブストリーミング参加者からの新機能のお知らせでした。