【レポート】AWS Summit Tokyo 2017:Amazon Redshift Ecosystem #AWSSummit
2017年05月30日(火)〜2017年06月02日(金)の計4日間に渡り、グランドプリンスホテル新高輪 品川プリンスホテル アネックスタワーで行われている『AWS Summit Tokyo 2017』。
当エントリでは2017年06月01日に行われた『Amazon Redshift Ecosystem』に関する内容をレポートしたいと思います。
なお、今回もこれまで同様『PRESS(プレス)』での参戦となります。現地開催会場の雰囲気を捉えた写真と併せてご紹介します。
- AWS Summit Tokyo 2017 セッション資料・動画一覧 | AWS
- 関連資料(PDF):ダウンロード
- 関連動画(YouTube):
目次
セッション概要
当セッションの登壇者及び概要は以下の通り。
相澤 恵奏氏(アマゾン ウェブ サービス ジャパン株式会社 技術統括本部 パートナーソリューションアーキテクト)
セッション概要:
近年、オンプレミスで稼働していたデータウェアハウスの保守サポートの終了や、新規分析基盤の構築において、
オンプレミス上での構築ではなく、より柔軟性の高い Amazon Redshift を選択されるお客様が増えています。
本セッションでは、Redshift への移行手法や対応可能な APN パートナ様の紹介、移行の際に検討される
周辺の BI/ETL ツールなど、Redshift を取り巻くエコシステムについてご説明します。
セッションレポート
自己紹介など:
- 自己紹介
- OLTP DBを10年、DWHを4年/プリセールスを担当、得意領域はPoC・ベンチマーク
- 相澤氏が"競合"として見た時に脅威として感じた、Redshiftを気に入った3点
- コスト:従量課金で利用出来る
- パフォーマンス:ノード追加を行う事で素早くパフォーマンスの拡張が出来る
- アジリティ:すぐにリサイズ処理が行える
- 現在Redshiftを推進する立場としては、『アジリティ』は特に強みになると思っている。
- エコシステム(Ecosystem):"生態系"の意。IT系の世界に於いては、"会社と会社が手を取り合う"という意味で使われている。
(アマゾン ウェブ サービス ジャパン株式会社
技術統括本部 パートナーソリューションアーキテクト 相澤 恵奏氏)
Redshift 概要:
- DWHの時代遷移:
- OLTP向けのRDBMS:データが増えるに従い処理も遅くなる
- DWHアプライアンス:一体型。DWHに特化したワークフローが使えるようになるものの、非常に高価。
- 列指向型データベースソフトウェア:MPP等が該当、ここまでが第3世代。
- Redshiftは『第4世代』に相当。フルマネージドでDWHを提供。
- 一般的な構成例
- 保存/分析/可視化の処理分担。
- S3に構造化データを保存し、定期的にRedshiftへロード、その後整形。
- Redshiftは構造化データをロードする仕組み。
- 構造化以外のデータはどうする?→AWSにおける90以上のサービスを組み合わせる事で柔軟に対応可能
- Amazon Redshiftの特徴:
- クラウド上のDWH
- フルマネージド
- アプリケーション作成に尽力出来る
- ペタバイト級/最大128ノードまでスケールアウト可能
- 列指向型
- IO削減が効率化のポイント
- マネージメントコンソールで各種要素の確認・管理が可能
- 『フルマネージドサービス』である事のメリット
- 設計・構築・運用の手間を削減出来る
- 数クリックで起動し、1時間単位での費用換算
- ノード数やタイプは起動後に変更可能
- バックアップやモニタリング機能を内蔵
- パッチ適用も自動的に行ってくれる
Redshift Ecosystem:
ETL/BI
- Redshiftと連携出来るETL/BIツール
- パートナー - Amazon Redshift | AWS
- 日本で利用されているものだと?→以下カタログを展開している。
- Redshift / ETLツール:多彩なツールの選択が可能。
ユースケース
- Redshift及び関連ETL/BIツールは多種多様な業界/業種で活用されている。
- 『AWSパートナー事例大全集 Vol.2』ではビッグデータ案件に関する事例が多数収録。
(※今回のVol.2では計7つの事例が掲載されています)
データレイク
- 特徴
- 多様なデータを一元的に保存
- 決められた方法(API)ですぐにアクセス出来る
- サイズ制限からの解放
- S3にデータを保存しておくことで多種AWSサービスとの連携が容易に。
- S3によるデータレイク実現のメリット
- 上限無し(サイジング不要)
- 高い耐久性:イレブン・ナイン(99.999999999%)
- 安価な費用
- APIアクセス
- ビッグデータ・プラットフォーム・デザイン
- データレイクとしてのS3にデータを保存、Redshiftに一括ロードしてBIツールで可視化
Amazon Redshift Spectrumの活用
- Amazon Redshift Spectrum – S3のデータを直接クエリし、エクサバイトまでスケール可能 | Amazon Web Services ブログ
- Amazon Redshift Spectrum | シリーズ | Developers.IO
- 『S3のデータをRedshiftにアクセスすることなく"外部表"として直接アクセスしたい』という場合に最適。
- 特徴
- 全体像
Amazon RedshiftとPostgreSQLの連携
- 『特定の時間帯(例:毎朝9時等)にDWHへの負荷が集中する』という様なユースケースがある場合、RDS(PostgreSQL)を前面配置し、Redshiftとの連携を行う事で課題を解決出来る。
- JOIN Amazon Redshift AND Amazon RDS PostgreSQL WITH dblink | AWS Big Data Blog
- PostgreSQLのdblink機能を使ってAmazon RedshiftとRDS(PostgreSQL)を結合する | Developers.IO
- PostgreSQLのdblinkやマテリアライズドビューの機能を使い、RedshiftデータのキャッシュとしてRDSを利用。
- 全体像は以下。
- Lambda連携(pgbouncer-rr)を行い、負荷分散対応も可能。
- RDS(PostgresSQL)への定期的なマテリアライズドビューの更新に、Lambdaを使う
- RedshiftとRDS(PostgresSQL)への負荷分散に、Pgbouncer-rrを別途使う
- Query Routing and Rewrite: Introducing pgbouncer-rr for Amazon Redshift and PostgreSQL | AWS Big Data Blog
移行・構築・運用
- 移行/構築/運用に関するユースケース
- 既存DWHからRedshiftへ移行したい。
- ビッグデータ新規基盤を構築したい。
- 既存Redshift環境のチューニングをしたい。
- 移行
- ダウンタイムを出来るだけ少なくRedshiftへ移行
- PoC&スモールスタートでまずは『小さく始める』。
- 上手く行ったらスケールアウト(規模を拡大)。もし失敗したのならばそこで止めれば良い。小さく始めていれば費用も少なくて済む。
- 既存DWHからRedshiftへの移行時の注意点
- 業務の最適化(移行すべき箇所の洗い出し)
- スキーマ/データ構造
- クエリー(SQL文)
- 既存アプリ(ストアドプロシージャ等)
- パフォーマンスを意識したテーブル設計
- データ移行
- DMS(AWS Database Migration Service)/SCT(AWS Schema Conversion Tool)を活用する事で課題を解決
- AWS Database Migration Service(データベースを簡単かつ安全に AWS へ移行) | AWS
- AWS Schema Conversion Tool とは - AWS Schema Conversion Tool
- AWS Schema Conversion Tool リファレンス - AWS Schema Conversion Tool
- AWS Schema Conversion Toolはスキーマ変換のサポートに加えてデータ移行にも対応。
- Greenplum Database(v4.3以降)
- Miicrosoft SQL Server(v2008以降)
- Netezza(v7.2以降)
- Oracle(v11以降)
- Teradata(v14以降)
- Vertica(v7.2.2以降)
- 上記で掲げた"既存DWHからのRedshift移行/ビッグデータ新規基盤の構築/既存Redshift環境のチューニング"を『サポートして欲しい』という場合→以下の制度を活用。
- APN コンピテンシープログラム - AWS パートナーネットワーク | AWS
- 習熟した技術を持ち、専門的なソリューションエリアでお客様を成功に導いた実績を持つAPNパートナーに付与。
- AWS サービスデリバリープログラム
- 複数案件のサポート実績に加えて、対象サービスに関するソリューションを公開しているなど、厳しい要件をクリアしたAPNパートナーを認定する制度。
- ちなみにRedshiftサービスデリバリープログラムについては弊社も取得済です。Redshift案件がございましたら是非ともご相談ください。 (→ お問い合わせ|クラスメソッド )
まとめ
という訳で『Amazon Redshift Ecosystem』に関するセッションレポートのご紹介でした。Redshiftの基本的な説明から良くあるユースケースへの対処方法、そして各種サポートプログラムの紹介と、『Redshift案件のススメ方』的な情報を広くカバーしたとても分かりやすい内容だったと思います。
セッション終盤で紹介頂いた様に、弊社クラスメソッドはRedshift Service Delivery Program取得パートナーでもあります。Redshift案件について気になるところがありましたら是非ともご相談頂けますと幸いです。(※大事な事なので2回言ってみました)