[レポート] Amazon Redshiftを利用した大規模データ分析基盤の構築方法, featuring Warner Bros. #ANT335 #reinvent

2019.12.04

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは!DA事業本部の大高です!現地ラスベガスからお届けします。

本記事はAWS re:Invent 2019のセッションレポートとなります。

概要

Modern cloud data warehouses must be able to scale up and out to handle variable analytics workloads. In this session, we discuss Amazon Redshift's ability to deliver top performance at the lowest and most predictable cost for any use case or workload. Learn how Amazon Redshift handles small datasets with large bursts of query activity, large datasets with complex queries, a mix of frequently queried data and infrequently accessed historical data, a mix of open file formats in an Amazon S3 data lake and structured data in Amazon Redshift, and more. Additionally, Warner Brothers discusses how it has seen improvements to its analytics performance with Amazon Redshift.

最新のクラウドデータウェアハウスは、様々な分析ワークロードを処理するためにスケールアウトおよびスケールアウトできる必要があります。 このセッションでは、あらゆるユースケースまたはワークロードに対して、予測可能な最低コストで最高のパフォーマンスを提供するAmazon Redshiftの機能について説明します。 Amazon Redshiftがクエリアクティビティの大きなバーストを含む小さなデータセット、複雑なクエリを含む大きなデータセット、頻繁にクエリされるデータとアクセス頻度の低い履歴データの混合、Amazon S3データレイクのオープンファイル形式とAmazon Redshiftの構造化データの混合を処理する方法を学習します。また、ワーナーブラザーズは、Amazon Redshiftによる分析パフォーマンスの改善をどのように見てきたかについて説明します。

本セッションはリピートセッションの「ANT335-R1」となります。

スピーカー

スピーカーは以下の方々になります。

  • Maor Kleider - Principal Product Manager, Amazon Web Services
  • Matt Howell - Executive Director, Analytics, WB Games
  • Kurt Larson - Technical Director, Analytics, Warner Bros. Interactive Entertainment

動画

導入

まずは、MaorさんからRedshiftの恩恵とアーキテクチャについての話です。

Amazon Redshiftの恩恵

データレイクとAWS統合

  • AWS Lake Formationによるカタログとセキュリティ
  • エクサバイススケールのクエリ対応(Spectrum & フェデレーテッドクエリ)
  • AWS統合(AWS DMS, Amazon CloudWatch)

パフォーマンス

  • 他のクラウドデータウェアハウスと比較して3倍以上の速さ

低コスト

  • 他のクラウドデータウェアハウスより最大75%低い
  • 予測可能なコスト

スケーラブル

  • 仮想的に制限のないリニアスケーリング

よりセキュア&セキュリティー認証

  • AWS標準セキュリティー(AWS KMSによるVPC暗号化や、AWS CloudTrail)
  • SOC, PCI, DSS, ISO, FedRAMP, HIPAA認証

フルマネージド

  • プロビジョニングと管理が容易
  • 自動バックアップ
  • 99.9%のSLA

Amazon Redshiftのアーキテクチャ

リーダーノード

  • SQLエンドポイント
  • メタデータストア
  • 並列SQL処理の制御

コンピュートノード

  • ローカル カラムナストレージ
  • クエリの並列実行
  • Load、Unload、バックアップ、リストア

Amazon Redshift Spectrumノード

  • Amazon S3への直接クエリ実行

Amazon Redshiftの新機能

2019年の主なイノベーション

2019年の主なイノベーションの一覧です。こうしてみると、とても頻繁に機能追加されているのが良くわかります。

out-of-the-boxパフォーマンスは2倍以上高速に

パフォーマンスのイノベーションとしては、以下が挙げられています。

  • AZ64エンコーディング
  • 再配置とブロードキャストを伴うJOINクエリの為のブルームフィルタ
  • 最新のCPUとネットワークの為のプランナー
  • HLL(HyperLogLog)統計情報
  • キャッシュ最適化された集約とJOIN処理

コンカレンシースケーリングによるコンピュートの伸縮性と拡張性

  • 秒単位でのシングルエンドポイントから複数のクラスタへのスケールアウト
  • SLAを維持した、仮想的に無制限の同時ユーザとクエリのサポート
  • クラスタ追加に対する秒単位での課金
  • 日次での1時間の無料利用権

新しいデータタイプGeometry: 空間データの収集、格納、分析

  • 空間データとビジネスデータのシームレスな統合
  • 様々な形状の空間データ型のサポート
  • 40以上のSQL空間関数

Amazon Redshift 第3世代コンピュートインスタンス: RA3

本日発表されたRA3インスタンスについてです。

Amazon Redshift フェデレーテッドクエリ (preview)

こちらも、本日発表されたフェデレーテッドクエリについてです。

マシンラーニングベースの自動最適化によるクエリパフォーマンスのターボチャージ

こちらは、最近までのアップデートによる自動最適化についてですね。直近の「Automatic Table Sort」によって一通り揃ったかと思います。

データレイクエクスポート: Parquetフォーマットでのデータ共有

本日発表されたParquetデータのUNLOADサポートについてです。

Warner Bros. GamesにおけるRedshiftの利用

次に、MattさんによるWarner Bros. GamesにおけるRedshiftの利用についてのお話です。

スケールへの対応について

ビジネスは一定ではなく、拡張性やデータ統合と民主化、データに基づいたアクションが必要とされます。 これに対応するため、以下のようにそれぞれのフェーズにおいて、Amazon Redshiftの各機能を利用して、課題解決を行っているとのことです。

Warner Bros. Gamesにおけるゲーム開発

また、多くのチームはゲームのリリースのために働いており、各チームは特製のツールを利用しているそうです。 一貫したアクション可能な各ゲーム用のビューを作成するために、クライアントデータを用いて、これらのツールを統合しています。

データ統合と民主化

以下のように、S3、Glueデータカタログ、Amazon Redshift Spectrumを活用し、データ統合と民主化を進めているそうです。

アクションを行う

Lake Houseから時にはSageMakerも利用し、Lambda経由でGame Opsやマーケティングに向けてデータの活用を行っているとのこと。

データ分析基盤の構築

最後に、KurtさんによるRedshiftによる、データ分析基盤の構築についてのお話です。

Gotta know these...

以下に示されているように、データの「収集」、「変換」、「利用」、「データフロー」に関しては、以下のような考慮が必要となります。

正しいツールの選択

各フェーズにおいては、以下のようなツールを活用をしているそうです。また、EMRについては今後はフェデレーテッドクエリに変えていきたいとのことでした。

ビッグデータ基盤

ビッグデータの基盤としては、以下のようになっており、Redshiftが分かれている箇所に関しては一方のRedshiftクラスタからデータをExportして、また別のRedhisftのデータレイクとして活用しているそうです。

WB Gamesが受けているRedshiftの価値

また、以下に示されるRedshiftの各機能によって様々な価値を得ているとのことです。個人的には「RA3インスタンスタイプ」によるダウンタイム無しでのストレージのスケールは、特に気になるところでした。

まとめ

以上、「Amazon Redshiftを利用した大規模データ分析基盤の構築方法」のレポートでした。新機能を含めた直近のアップデートのおさらいと、その新機能を含めた具体的なWarner Bros.での活用事例がとても興味深かったセッションでした。

それでは、また!