[レポート]Get better price performance in cloud data warehousing with Amazon Redshift #ANT320-R #reinvent

2022.12.01

どーも、データアナリティクス事業本部コンサルティングチームのsutoです。

現地ラスベガスでre:Invent 2022に参加中です。

本エントリはAWS re:Invent 2022のセッション「ANT320-R Get better price performance in cloud data warehousing with Amazon Redshift」のレポートです。

セッションの概要

Getting timely value from data requires high-performance systems that can deliver performance at any scale while keeping costs low. Amazon Redshift, the fastest, easiest, and most widely used cloud data warehouse, empowers tens of thousands of organizations to analyze exabytes of data every day. Join this chalk talk to learn how Amazon Redshift innovates continuously to improve performance, elasticity, and concurrency while keeping costs manageable.

 

データからタイムリーな価値を得るには、コストを抑えながら、あらゆるスケールでパフォーマンスを発揮できる高性能なシステムが必要です。Amazon Redshiftは、最も速く、最も簡単で、最も広く利用されているクラウドデータウェアハウスであり、何万もの組織が毎日エクサバイトのデータを分析することを可能にしています。このトークセッションでは、Amazon Redshiftがどのようにしてコストを抑えながらパフォーマンス、弾力性、同時実行性を向上させるために継続的に革新を行っているかをご紹介します。

スピーカー

  • stefan gromoll, SDM Performance Engineering, Amazon Redshift, AWS
  • Ippokratis Pandis, VP/Distinguished Engineer, Amazon Web Services

セッションタイプ

Chalk Talk

レポート

Redshiftの価格について

  • インフラを気にすることなく、データからインサイトへ瞬時に到達することに注力。
  • 運用中のデータベース、データレイク、データウェアハウスにまたがる複雑で大規模なデータに対して、リアルタイム分析と予測分析を実行し、インサイトを得ることができます。
  • 他のクラウドデータウェアハウスと比較して最大3倍の価格性能と、複雑で重要なワークロードのクエリ速度を向上させる動的なスケーラビリティを実現します。
  • 価格性能と規模により、DWHが最もコスト効率に優れているかどうかがわかります。

Redshiftの拡張性について

  • ストレージはTBレベルからPBレベルまで増えても価格増加は非常に少ないことがわかる

  • 並列クエリ数に応じてオートスケールし、グラフに示すようにスパイクがあっても一貫したスループットを提供している
  • パフォーマンス最適化のためのアプローチ
    • ショートクエリのパフォーマンスが1年ほどで20%ほど向上
    • 大量のショートクエリにもRedshiftのパフォーマンスの数値は上がっている

Redshiftでのクエリ実行の流れ

  • SELECT分のクエリ処理が図解+コードベースでどのようなプロセスなのかがわかるスライド
    • スキャン+フィルタの際「HASHJOIN」→「AGG」→「SORT、LIMIT」という流れで処理されている

テレメトリーとベンチマーク

  • 6ヶ月ほどでベンチマークの数値が約3倍に

String型の処理について

  • 高度な文字列圧縮エンコードにより、重いstringa型のクエリを最大64倍高速化
  • [NEW LAUNCH]BYTEDICTエンコーディングが、low-cardnality文字列に最適化されました

コンピューティングの柔軟性向上

  • 1年弱で60倍のパフォーマンス向上

テーブルの自動最適化

  • 時間が経つとバックグラウンドで作業し、ワークロードのパフォーマンスを向上させる
  • 最終的に約40%の速度向上を実現

最後に

Redshift開発の進化として

  • 何万人ものお客様が、毎日数エクサバイトのデータをRedshiftで処理
  • パフォーマンスとスケーラビリティに継続的にフォーカス
  • 数十PBsのデータと数千人のユーザーを弾力的にサポートする能力
  • Redshiftを使いやすくする自律性
  • インテリジェントなコンピュート管理によるサーバーレスな操作性

があるということで、パフォーマンス向上のためにどんな過程をたどったのかがわかる内容でした。開発チームの改善の成果を聞き、クエリ処理の内部アーキテクチャのことも知ることができるセッションでした。