[レポート]Modernize your data warehouse #ANT324 #reinvent

2022.12.07

どーも、データアナリティクス事業本部コンサルティングチームのsutoです。

本エントリはAWS re:Invent 2022のセッション「ANT324 Modernize your data warehouse」のレポートです。

セッションの概要

As data volumes grow and the demand to get faster insights increases, organizations face challenges with performance, scalability, and rigidity of traditional data warehouse systems. In this session, explore how you can use the new capabilities of Amazon Redshift to modernize your data warehouse by gaining access to all your data—real-time streaming data, transactional data, semi-structured data, data in open formats, or even third-party data—and share consistently across the organization through a petabyte-scale serverless engine. Learn how Amazon Redshift allows you to build powerful analytics and ML applications for a wide range of use cases and the most demanding workloads.

 

データ量が増加し、より迅速な洞察が求められる中、企業は従来のデータウェアハウスシステムのパフォーマンス、スケーラビリティ、堅牢性といった課題に直面しています。本セッションでは、Amazon Redshiftの新機能を利用してデータウェアハウスを近代化し、リアルタイムストリーミングデータ、トランザクションデータ、半構造化データ、オープンフォーマットのデータ、あるいはサードパーティデータなど、あらゆるデータにアクセスし、ペタバイト規模のサーバーレスエンジンを通じて組織内で一貫して共有する方法を探ります。Amazon Redshiftによって、さまざまなユースケースや最も要求の厳しいワークロードに対応する強力な分析およびMLアプリケーションをどのように構築できるかをご覧ください。

スピーカー

  • Shruti Worlikar, Sr Mgr, Analytics Specialist SA, AWS
  • Neeraja Rentachintala, Principal Product Manager, Amazon
  • Shyam Mohapatra, Director Data Engineering & Enablement, Johnson & Johnson

セッション内容

モダンデータウェアハウスアーキテクチャ

  • 従来のデータウェアハウスは組織の流入するデータの量、速度、多様性に対応できていない
  • モダンデータウェアハウス:インフラを気にすることなく、様々な新しい分析ユースケースを可能にする

  • Redshift10年の進化の歴史:分析のためのさまざまな機能追加があった
  • 他のDWHサービスと比べて
    • 5倍以上の優れたコストパフォーマンス
    • ショートクエリのスループットは7倍のパフォーマンス

  • DWHのマイグレーションについて
    • アップデートのあった「SQL機能強化」や「ダイナミックデータマスキング」の話もピックアップされている
    • AWS SCTなどのデータベースの移行をサポートするサービスも充実していることがわかる

  • NTT docomo様の事例が紹介された
    • マイグレーションにより、わずかなコストで10倍以上のパフォーマンスを実現

  • 動的かつ可変的なワークロードの課題に対処するためのRedshift Serverlessについて
  • 事例についてはRoche様が紹介

  • S3〜Redshiftのクエリについて、アップデートの「auto-copy from S3」の話を説明

  • Redshiftw使った機械学習機能として、Redshift MLのほかにアップデートであった「Redshift Integration for Apache Spark」の紹介

  • さらにアップデートで、KinesisやMSKのリアルタイムデータストリームデータとの直接連携もできるようになった

  • 数年前発表したRedshift→Aurora(PosgreSQLやMySQLなど)のFederated Queryに続き、今年のアップデートである「AuroraとのZero-ETL Integration」の話

  • 続いてRedshift Data Sharingの話となり、Redshift間のデータ共有も容易となった。データメッシュアーキテクチャと呼ばれる非常に柔軟なマルチクラスターを形成できる
  • さらにLake Formationとのデータ共有の統合を発表

  • Data ExchangeとRedshiftの統合について、デモ画面をとおして解説
  • その他にも上記アーキテクチャ図のデータ連携(EMRやRedshift MLなど)のデモ画面が流れました

Johnson and Johnson様の事例

  • 上記の図にある、これらのデータとその洞察をより迅速に提供する必要があった

  • Redshiftのマイグレーション後、アップデートの歴史とともにその機能を導入していき、最終的にはRA3インスタンス、データシェアリング、Redshift Serverlessの使用もおこなっている

  • Redshift導入により得られたメリット

  • アーキテクチャのビフォーアフター

  • Redshift Serverlessの更なる活用
  • データアクセスを高速化するための組織向けのセルフサービスを増やしたい
  • 組織内のデータシェアリングの更なる拡張

最後に

これまで追加されてきた機能に加え、今年発表されたアップデートによって、さまざまなサービスやデータソースがRedshiftに直接接続できるようになったことがわかるセッションでした。

とくに今年のRedshiftのアップデートはデータを連携しやすくする「データインテグレーション」に重きをおいています。

Redshiftにデータを蓄積していくためのアーキテクチャの構成が大変だったユースケースに対して、連携のハードルがどんどん下がってきているのが嬉しいですね。