【レポート】Amazon Redshift ハンズオンに参加しました
こんにちは HIRANO@おんせん県おおいた です。
先日、AWS主催のRedshiftハンズオンに参加してきましたのでレポートします。
Amazon Redshift とは
Redshiftは列指向のRDBMSです。データの集計に強みを発揮します。一般のRDBMS(Amazon Aurora等)は行指向で、SQLで特定のデータを取り出すのは得意ですが、大量データの集計には負荷がかかってしまいます。 つまり、大量に蓄積されたデータを効率的に分析できることがRedshiftの強みとなります。
例えば、QuickSightのようなBIツールでインタラクティブに分析を進めながら、ビジネスの意思決定を素早く行うケースなどでは、このRedshiftの強みが発揮されます。
構築内容
今回のハンズオンの構成図です
ハンズオンの流れは次のようになります
1. VPC, EC2, Aurora, S3の構築
まずはこれらの構成を、あらかじめ用意されたCloudFormationで構築します。 この際、Auroraに約6000万件のデータが登録されます。
2. Redshift環境の構築
こちらはマネージメントコンソールから構築します。 Redshift構築の手順を理解しながら進めることができます。
3. Auroraからのデータ移行
AuroraのデータをS3にエクスポート、そのデータをRedshiftにインポートします。コンソールからSQLを実行し、動作確認を行います。
AuroraとRedshiftの比較
検証用データ
今回ハンズオンで用意されているデータは、TPC-Hというデータベースのベンチマークに利用されるものです。 AuroraとRedshiftを同条件で比較できます。
検証
TPC-Hの22種類の検証用クエリを実行した結果が下記になります。 ハンズオンでは、これらのクエリを実行して、実行速度を体感することができます。
まとめ
列指向の集計を得意とするRedshiftは、少量のデータではその効果を実感しにくいサービスです。 今回のハンズオンでは、約6000万件のデータがあらかじめ準備されており、さらにAuroraとの比較も体験できました。 これからデータ分析基盤を検討される方、ぜひ一度このハンズオンを体験されることをお勧めします。
ハンズオンの参加方法
次回、2020.10.28に開催されます。下記よりお申し込みいただけます。