【レポート】Amazon Redshift ハンズオンに参加しました

約6000万件のデータを使った、AWS主催Redshiftハンズオンの体験レポートです。
2020.10.06

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは HIRANO@おんせん県おおいた です。

先日、AWS主催のRedshiftハンズオンに参加してきましたのでレポートします。

Amazon Redshift とは

Redshiftは列指向のRDBMSです。データの集計に強みを発揮します。一般のRDBMS(Amazon Aurora等)は行指向で、SQLで特定のデータを取り出すのは得意ですが、大量データの集計には負荷がかかってしまいます。 つまり、大量に蓄積されたデータを効率的に分析できることがRedshiftの強みとなります。

例えば、QuickSightのようなBIツールでインタラクティブに分析を進めながら、ビジネスの意思決定を素早く行うケースなどでは、このRedshiftの強みが発揮されます。

構築内容

今回のハンズオンの構成図です

ハンズオンの流れは次のようになります

1. VPC, EC2, Aurora, S3の構築

まずはこれらの構成を、あらかじめ用意されたCloudFormationで構築します。 この際、Auroraに約6000万件のデータが登録されます。

2. Redshift環境の構築

こちらはマネージメントコンソールから構築します。 Redshift構築の手順を理解しながら進めることができます。

3. Auroraからのデータ移行

AuroraのデータをS3にエクスポート、そのデータをRedshiftにインポートします。コンソールからSQLを実行し、動作確認を行います。

AuroraとRedshiftの比較

検証用データ

今回ハンズオンで用意されているデータは、TPC-Hというデータベースのベンチマークに利用されるものです。 AuroraとRedshiftを同条件で比較できます。

検証

TPC-Hの22種類の検証用クエリを実行した結果が下記になります。 ハンズオンでは、これらのクエリを実行して、実行速度を体感することができます。

まとめ

列指向の集計を得意とするRedshiftは、少量のデータではその効果を実感しにくいサービスです。 今回のハンズオンでは、約6000万件のデータがあらかじめ準備されており、さらにAuroraとの比較も体験できました。 これからデータ分析基盤を検討される方、ぜひ一度このハンズオンを体験されることをお勧めします。

ハンズオンの参加方法

次回、2020.10.28に開催されます。下記よりお申し込みいただけます。

SaaS 事業者のための Amazon Redshift 活用法(無料/オンライン開催)