produced by Classmethod

[レポート]Modernize your data warehouse #ANT324 #reinvent

AWS re:Invent 2022

Amazon Redshift Amazon Redshift Serverless AWS Data Exchange AWS

2022.12.07

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

どーも、データアナリティクス事業本部コンサルティングチームのsutoです。

本エントリはAWS re:Invent 2022のセッション「ANT324 Modernize your data warehouse」のレポートです。

セッションの概要

As data volumes grow and the demand to get faster insights increases, organizations face challenges with performance, scalability, and rigidity of traditional data warehouse systems. In this session, explore how you can use the new capabilities of Amazon Redshift to modernize your data warehouse by gaining access to all your data—real-time streaming data, transactional data, semi-structured data, data in open formats, or even third-party data—and share consistently across the organization through a petabyte-scale serverless engine. Learn how Amazon Redshift allows you to build powerful analytics and ML applications for a wide range of use cases and the most demanding workloads.

データ量が増加し、より迅速な洞察が求められる中、企業は従来のデータウェアハウスシステムのパフォーマンス、スケーラビリティ、堅牢性といった課題に直面しています。本セッションでは、Amazon Redshiftの新機能を利用してデータウェアハウスを近代化し、リアルタイムストリーミングデータ、トランザクションデータ、半構造化データ、オープンフォーマットのデータ、あるいはサードパーティデータなど、あらゆるデータにアクセスし、ペタバイト規模のサーバーレスエンジンを通じて組織内で一貫して共有する方法を探ります。Amazon Redshiftによって、さまざまなユースケースや最も要求の厳しいワークロードに対応する強力な分析およびMLアプリケーションをどのように構築できるかをご覧ください。

スピーカー

Shruti Worlikar, Sr Mgr, Analytics Specialist SA, AWS
Neeraja Rentachintala, Principal Product Manager, Amazon
Shyam Mohapatra, Director Data Engineering & Enablement, Johnson & Johnson

セッション内容

モダンデータウェアハウスアーキテクチャ

従来のデータウェアハウスは組織の流入するデータの量、速度、多様性に対応できていない
モダンデータウェアハウス：インフラを気にすることなく、様々な新しい分析ユースケースを可能にする

Redshift10年の進化の歴史：分析のためのさまざまな機能追加があった
他のDWHサービスと比べて
- 5倍以上の優れたコストパフォーマンス
- ショートクエリのスループットは7倍のパフォーマンス

DWHのマイグレーションについて
- アップデートのあった「SQL機能強化」や「ダイナミックデータマスキング」の話もピックアップされている
- AWS SCTなどのデータベースの移行をサポートするサービスも充実していることがわかる

NTT docomo様の事例が紹介された
- マイグレーションにより、わずかなコストで10倍以上のパフォーマンスを実現

動的かつ可変的なワークロードの課題に対処するためのRedshift Serverlessについて
事例についてはRoche様が紹介

S3〜Redshiftのクエリについて、アップデートの「auto-copy from S3」の話を説明

Redshiftw使った機械学習機能として、Redshift MLのほかにアップデートであった「Redshift Integration for Apache Spark」の紹介

さらにアップデートで、KinesisやMSKのリアルタイムデータストリームデータとの直接連携もできるようになった

数年前発表したRedshift→Aurora（PosgreSQLやMySQLなど）のFederated Queryに続き、今年のアップデートである「AuroraとのZero-ETL Integration」の話

続いてRedshift Data Sharingの話となり、Redshift間のデータ共有も容易となった。データメッシュアーキテクチャと呼ばれる非常に柔軟なマルチクラスターを形成できる
さらにLake Formationとのデータ共有の統合を発表

Data ExchangeとRedshiftの統合について、デモ画面をとおして解説
その他にも上記アーキテクチャ図のデータ連携（EMRやRedshift MLなど）のデモ画面が流れました

Johnson and Johnson様の事例

上記の図にある、これらのデータとその洞察をより迅速に提供する必要があった

Redshiftのマイグレーション後、アップデートの歴史とともにその機能を導入していき、最終的にはRA3インスタンス、データシェアリング、Redshift Serverlessの使用もおこなっている

Redshift導入により得られたメリット

アーキテクチャのビフォーアフター

Redshift Serverlessの更なる活用
データアクセスを高速化するための組織向けのセルフサービスを増やしたい
組織内のデータシェアリングの更なる拡張

最後に

これまで追加されてきた機能に加え、今年発表されたアップデートによって、さまざまなサービスやデータソースがRedshiftに直接接続できるようになったことがわかるセッションでした。

とくに今年のRedshiftのアップデートはデータを連携しやすくする「データインテグレーション」に重きをおいています。

Redshiftにデータを蓄積していくためのアーキテクチャの構成が大変だったユースケースに対して、連携のハードルがどんどん下がってきているのが嬉しいですね。

この記事をシェアする

AWSのお困り事はクラスメソッドへ

関連記事

[レポート] Innovations in AWS analytics Zero-ETL and data integrations #AWSreInvent #ANT348

おざわ（じ）

2024.12.13

[レポート]AWSのデータ取り込み戦略 - Solving different data ingestion use cases with AWS (ANT330) #AWSreInvent

2024.12.23

[レポート] Deep dive into Amazon DynamoDB zero-ETL integrationsに参加しました #AWSreInvent #DAT348

2024.12.09

[レポート]Amazon Redshift: 10 years of innovation in integration, data sharing & more #ANT345 #reinvent

2022.12.10