[レポート] Amazon Redshiftにおけるパフォーマンスと伸縮性 #ANT416 #reinvent

AWS re:Invent 2019

#レポート

#Amazon Redshift

#AWS

大高大輔

2019.12.05

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは！DA事業本部の大高です！現地ラスベガスがらお送りします。

本記事はAWS re:Invent 2019のセッションレポートとなります。

概要

This session dives deep into the capabilities of Amazon Redshift. See how Amazon Redshift achieves its state-of-the-art performance and learn about all aspects of elasticity, from the compute and data elasticity within a single cluster to elasticity across multiple clusters.

このセッションでは、Amazon Redshiftの機能について詳しく説明します。 Amazon Redshiftが最先端のパフォーマンスをどのように達成するかを確認し、単一クラスター内のコンピューティングとデータの伸縮性から複数のクラスターにわたる伸縮性まで、伸縮性のあらゆる側面について学びます。

また、本セッションはチョークトークセッション（少人数でのディスカッション形式）で、リピートセッションの「ANT416-R1」となります。

スピーカー

スピーカーは以下の方々になります。

Thanos Papathanasiou - Principal Engineer, Amazon Web Services
Yuval Pemper - SVP Engineering, Innovid

セッションの流れ

まずはThanosさんから「Redshiftのパフォーマンスと伸縮性について」、その次にInnovid社のYuvalさんから「具体的なRedshiftの利用事例の紹介」がありました。

そのあとは、出席者とのQA形式で進む形となります。

Performance and elasticity in Amazon Redshift

まずはThanoさんによるセッションです。

Amazon Redshiftのアーキテクチャ

クラウドネイティブな分散データアーキテクチャ
リーダーノードとコンピュートノード
- リーダーノードはコネクション、カタログ、実行計画を管理する
- コンピュートノードはデータと処理実行を担当する
分散クエリ処理
- テーブルデータはコンピュートノードを横断してパーティショニングされる
- テーブルアクセスは分散される

伸縮性の要求

統一性のない、または、予測不可能なワークロードパターン
- ピークとアベレージの隔たり
- ピークに合わせてプロビジョニングした場合は、コストがかかる
コンピュートとストレージは独立性を求められる
- コンピュートスケーリング: 高いクエリコンカレンシーを制御
- ストレージスケーリング: データを保持し、保持ポリシーと監査要件に準拠する
- ストレージをコンピュートから切り離し、独立してスケーリングする
ユーザは必要な時だけ支払いをする