Redshift新機能『Redshift Spectrum』でクラスタ間テーブル共有を試してみる

AWS Summit San Francisco 2017

甲木洋介

2017.04.20

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

サンフランシスコの2017/04/19(日本では2017/04/20深夜)より『AWS Summit 2017 in San Francisco』が開催されています。

AWS Summits 2017 | San Francisco

こちらのキーノートセッションで、Amazon Redshift(以下Redshift)の新機能『Redshift Spectrum』が発表されました。Amazon S3(以下S3)上のデータに対し、Redshiftのテーブルと同じように問合せできるようになる、という機能です。

この新機能については、既に公式ドキュメントが公開されています。

また、本機能に関するブログも弊社より早速公開していますので、公式ドキュメントと併せて御覧ください。

さて、この新機能、S3上のファイルをテーブルとして参照できるということは、S3上のファイルであれば、クラスタ間でテーブル共有が実現できるかも知れません。わくわくです。早速実現可能かどうか試してみます。

検証

複数クラスタから同じS3上のファイルをテーブルとして参照できるよう環境を構成します。環境構築には、以下のツールを使用しています。

Aginity Workbench for Redshift
CloudBerry Explorer for Amazon S3

Redshiftクラスタの準備

2017/04/20時点においては、Redshift Spectrumは東京リージョンで使うことができません。そこで今回は、バージニア北部(N. Virginia)リージョンでクラスタを構成することにします。

注：以降、本エントリにおける「現在」とは、2017年4月20日を指すこととします。

基本的な環境の作り方は、下記公式ドキュメント及び弊社ブログに記載があります。

こちらの内容を参考にして、以下の設定でクラスタを作成します。

クラスタ名：cm-redshift-spectrum
データベース名：cmdb
ゾーン：us-east-1a

try-shareing-table-across-clusters-using-redshift-spectrum-01

また、S3バケットのファイルをAthena経由でアクセスできるロールを作成し、クラスタに追加します。

ロール名：Redshift-Spectrum-Role
ロールタイプ：Amazon Redshift
適用ポリシー：AmazonS3ReadOnlyAccess, AmazonAthenaFullAccess

try-shareing-table-across-clusters-using-redshift-spectrum-02

データファイルの準備

S3バケット、フォルダの作成

現在のRedshift Spectrumの制限として、Amazon RedshiftクラスタとAmazon S3バケットは同じ地域に存在している必要があります。それに従い、US East(Northern Virginia)にバケットを作成します。

バケット名：cm-yokatsuki-bigdata-lab
フォルダ名：spectrum-test

try-shareing-table-across-clusters-using-redshift-spectrum-03

ファイルの作成、配置

csv形式のファイルsample.csvを作成し、上記フォルダに配置します。

% cat sample.csv
1,1件目のデータ
2,2件目のデータ
3,3件目のデータ

try-shareing-table-across-clusters-using-redshift-spectrum-04

テーブル参照の設定と確認

次に、上記チュートリアルを参考に、Redshiftクラスタ上にテーブルを作成します。

外部スキーマの作成

Redshift Spectrum用のスキーマspectrum_schemaを作成します。

CREATE EXTERNAL SCHEMA spectrum_schema
FROM DATA CATALOG
DATABASE 'spectrumdb'
IAM_ROLE 'arn:aws:iam::XXXXXXXXXXXX:role/Redshift-Spectrum-Role'
CREATE EXTERNAL DATABASE IF NOT EXISTS;

try-shareing-table-across-clusters-using-redshift-spectrum-05

このSQL文中にデータベースの指定がありますが、これはRedshiftのデータベース名ではなくAthenaのデータベース名になります。新規にデータベースを追加したつもりでも、Redshiftにはデータベースが追加されないので注意して下さい。

外部テーブルの作成

spectrum_schemaに外部テーブルsampleを作成します。

CREATE EXTERNAL TABLE spectrum_schema.sample
(
 id INTEGER,
 data VARCHAR(20)
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
LOCATION 's3://cm-yokatsuki-bigdata-lab/spectrum-test/';

try-shareing-table-across-clusters-using-redshift-spectrum-06