[レポート] ワークショップ：Amazon Redshift と Amazon S3 を横断するシングルクエリーの構築方法 #ANT404 #reinvent

AWS re:Invent 2019

川崎照夫

2019.12.16

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

DA事業本部の川崎です。

本記事はAWS re:Invent 2019のワークショップの参加レポートとなります。

概要

Amazon Redshift offers a common query interface against data stored in fast, local storage (Amazon Redshift) and data stored in high-capacity, inexpensive storage (Amazon S3). This workshop covers the basics of this tiered storage model and outlines design patterns that you can leverage to get the most from large volumes of data. Learn how to build out your own Amazon Redshift cluster with multiple data sets to illustrate the trade-offs between the storage systems. Learn how to distribute your data and design your DDL to deliver the best data warehouse for your business.

Amazon Redshiftは、高速のローカルストレージ（Amazon Redshift）に保存されたデータと、大容量の安価なストレージ（Amazon S3）に保存されたデータに対する共通のクエリインターフェイスを提供します。このワークショップでは、この階層型ストレージモデルの基本について説明し、大量のデータを最大限に活用するために活用できる設計パターンの概要を説明します。複数のデータセットを使用して独自のAmazon Redshiftクラスターを構築し、ストレージシステム間のトレードオフを説明する方法を学びます。データを配布し、DDLを設計して、ビジネスに最適なデータウェアハウスを提供する方法を学びます。

スピーカー

Vuk Ercegovac - Principal Engineer, Amazon Web Services
Joe Harris - Redshift Database Engineer III, Amazon Web Services

アジェンダ

ワークショップのコンテンツ
- ワークショップ終了後、以下のことができるようになります。
  - Amazon S3でログファイルとネストされたJSONデータをクエリします。
  - AWS Glueを使用して共有データカタログを作成します。
  - アンロードを使用して、カラムナフォーマットでデータをエクスポートします。
  - AWS Lake Formationを使用して安全なデータレイクを構築します。
  - 新しいAmazon Redshift Spatialを使用して、外部で空間クエリを実行します。

Amazon RedshiftおよびAmazon Redshift Spectrumのリキャップ（要約）

Amazon Redshiftアーキテクチャ

Amazon Redshift の新機能

自動メンテナンス
- バキュームとアナライズは、バックグラウンドで自動実行されます
クエリ優先度を持つ自動WLM
- Amazon Redshiftは、リソース割り当てベースのクエリ優先度を自動的に調整します。
同時実行スケーリング
- ワークロードのスパイク発生時に、追加クラスターが数秒でオンラインになります
Parquetへのアンロード
- 自動パーティションサポートを使用して、Parquet形式に直接アンロード

Amazon Redshift Spectrumは、クラスターサイズの問題を解決します

クラスターが小さすぎる？
- データがクラスターに収まらない、またはクエリの実行に時間がかかりすぎる。
クラスターが大きすぎる？
- ハードウェアが十分に活用されていない、またはクラスターのコストが高すぎる。

Amazon Redshift Spectrumクエリ処理

Amazon Redshift Spectrumの新機能

Amazon Redshift Spectrumリクエストアクセラレーター
- メタデータと小さな結果出力をキャッシュして、クエリが高速化されました
ネストされたデータのサポート
- 複雑なマルチ構造化データで外部テーブルを定義できるようになりました
- PartiQLイニシアチブ＠partiql.org
  - ネストされたデータに対するクエリのオープンソース仕様
Lake Formation
- Amazon S3データレイクをすばやく作成して保護します