AWS入門ブログリレー2024〜 Amazon Redshift 編〜
当エントリは弊社AWS事業本部による『AWS 入門ブログリレー 2024』に部外者ですが参戦している27日目のエントリです。
このブログリレーの企画は、普段 AWS サービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、 今一度初心に返って、基本的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。
AWS をこれから学ぼう!という方にとっては文字通りの入門記事として、またすでに AWS を活用されている方にとっても AWS サービスの再発見や 2024 年のサービスアップデートのキャッチアップの場となればと考えておりますので、ぜひ最後までお付合い頂ければ幸いです。
では、さっそくいってみましょう。今回のテーマは『Amazon Redshift』です。
Amazon Redshift とは
Amazon Redshiftは、AWSが提供するフルマネージド型の高速かつスケーラブルなクラウドデータウェアハウスサービスで、リアルタイムの大量データ分析・集計を実現し、データドリブンな意思決定を支援します。高度なデータ圧縮技術と列指向ストレージを活用し、SQLベースのクエリで様々なデータソースを統合・分析が可能です。数テラバイトからペタバイトオーダーのデータセットの処理を容易にし、機械学習にネイティブで連携、様々なBIツールとの接続サポートしているため、多くの企業で採用されています。
Amazon Redshiftは、データアナリストがBIツールを通じて接続してデータを探索・可視化するだけでなく、データサイエンティストはとっても特別な準備なしにすぐに機械学習を始められる有用なデータウェアハウスです!
データウェアハウス(DWH)
Amazon Redshiftは、クラウド型のデータウェアハウス(DWH)のサービスです。データウェアハウス(DWH)とは、企業が収集した様々なデータを一元的に保存し、分析やレポーティングのために整理、集約されたデータベースです。データは、事業活動から生成される構造化データ(顧客情報、取引記録など)や非構造化データ(SNSの投稿、センサーデータなど)も含まれます。
データウェアハウス(DWH)の目的は、統合されたデータからインサイトを得ることにあり、企業がより効率的な意思決定を行うための重要な基盤となっています。また、専用のストレージと高性能クエリエンジンを備えているため、大規模なデータセットの高速な分析を実現できます。
次に「データウェアハウス(DWH)」とは何か、リレーショナルデータベースの違いついて、解説します。
データウェアハウス(DWH)とリレーショナルデータベースの違い
データウェアハウス(DWH)は、企業全体の様々なソースからデータを収集・統合し、分析やレポーティングに特化したシステムです。過去の履歴データを読み取り、分析するためのクエリに最適化されています。
一方、リレーショナルデータベースは、主に業務アプリケーションのデータを格納し、トランザクション処理を行うために設計されています。現在のデータの読み書きを同時に処理するためのトランザクション処理に最適化されています。
このように、それぞれのデータストレージ形態は用途に応じて使い分けられ、ビジネスの多様な要求に対応しています。
アクセスパターン
業務アプリケーションなど、リレーショナルデータベースのアクセスパターンはオンライントランザクション処理(OLTP)です。オンライントランザクション処理(OLTP)は、ユーザーのアクションに基づいてインデックスのキーから少数のレコードを取得・更新します。このような業務システムはインタラクティブであり、素早く応答を返さなければなりません。
一方、データ分析に用いられるデータウェアハウス(DWH)のアクセスパターンはオンライン分析処理(OLAP)です。オンライン分析処理(OLAP)は、分析クエリは大量のレコード中の少数の列だけを読み出します。レコード数、合計、平均などといった、いわゆる要約統計を計算した結果をユーザーに返したり、テーブルに保存したりします。
- オンライントランザクション処理(OLTP):リレーショナルデータベース
- インデックスのキーから少数のレコードを取得・更新
- インタラクティブであり、素早く応答が必要
- オンライン分析処理(OLAP):データウェアハウス(DWH)
- 大量のレコード中の少数の列だけを読み出しが多い
- 要約統計 (レコード数、合計、平均など)を計算した結果をユーザーに返したり、テーブルに保存する
データアクセスの比較
オンライントランザクション処理(OLTP)は、頻繁に低いレイテンシでレコードの読み書きができなければなりません。一方、オンライン分析処理(OLAP)は、大量のレコード中の少数の列だけを読み込み、集計できなければなりません。
特性 | オンライントランザクション処理(OLTP: OnLine Transaction Processing) | オンライン分析処理 (OLAP: OnLine Analytic Processing) |
---|---|---|
データの規模 | 数GBから数TB | 数百GBから数PB |
読み込みのパターン | インデックスのキーを用いた少数のレコードの低レイテンシ読み込み | 大量のレコード中の少数の列だけを読み込み |
書き込みのパターン | ランダムアクセスと低レイテンシ書き込み | レコード中の更新した列の追加書き込み、もしくは大量データの一括インポート |
データウェアハウス(DWH)について、もう少し知りたい方は以下の動画をご覧ください。
2つのAmazon Redshift 〜 Provisioned Cluster と Serverless
現在、Amazon Redshiftは、「Cluster」と「Serverless」の2種類あります。クラスターを事前にプロビジョニングするAmazon Redshift Provisionedと、呼び出したときに自動的にプロビジョニングされるAmazon Redshift Serverlessの2種類あります。なお、Amazon Redshift Provisionedは、「Provisioned」や「Provisioned Cluster(プロビジョニング済みクラスター)」とも呼ばれます。
引用: Amazon Redshift データベース開発者ガイド/データウェアハウスシステムのアーキテクチャ
2013年Amazon Redshift(現在のAmazon Redshift Provisioned)がリリースされました。その後、2021年にAmazon Redshift Serverlessがリリースされました。そのような歴史的背景があり、表記揺れが存在します。
Amazon Redshift Provisionedは、事前にクラスターサイズを決定する必要があり、アイドル時間にもコストが発生しますが、リザーブドインスタンスを購入することでコスト最適化が可能です。一方、Amazon Redshift Serverlessは、必要な時に必要なリソースを自動的にプロビジョニングするため、ワークロードの規模に合わせてコストを最適化できます。
項目 | Amazon Redshift Provisioned | Amazon Redshift Serverless |
---|---|---|
クラスタの管理 | 必要 | 不要 |
コスト | ノードタイプ・ノード数とストレージ容量 | RPUの数と実行時間 |
クエリのパフォーマンス | ワークロードに合わせてチューニング可能 | ワークロードに合わせて自動スケーリング |
ユースケース | 大規模なデータ分析、データウェアハウス、機械学習、ビジネスインテリジェンス | アドホック分析、簡易的なデータウェアハウス、開発・テスト環境、コスト重視のワークロード |
Amazon Redshiftは、2種類の存在しますが相互に移行が可能で、SQLやこれから紹介する機能(Redshift Spectrum、Federated Queryなど)は同じように使えます。こういうケアがしっかりできるところがAWSの素晴らしい点です。
Amazon Redshift Provisionedのスケーリング戦略
Amazon Redshiftは、ペタバイト規模のデータウェアハウスサービスを提供しており、AWSのマネージドサービスの一つです。大量のデータに対する高速なクエリと分析を可能にすることを目的に設計されています。Amazon Redshift Provisionedのスケーリング戦略は、性能要件やコスト効率を最適化するために非常に重要です。
1. 垂直スケーリング (Vertical Scaling)
垂直スケーリングは、現在のノード(サーバー)の性能をワークロードに応じてサイジング(スケールアップ/スケールダウン)する方法です。これにより、CPU、メモリ、ストレージ、I/Oの性能が向上します。
Amazon Redshift Provisionedには、さまざまなワークロードに対応する複数のノードタイプがあります。RA3ノードは最新世代のノードタイプで、CPUあたりのパフォーマンスやコスト効率も向上しており、汎用的なワークロードに適しています。一方、DC(Dense compute)はより多くのCPUコアとメモリを搭載し、高い処理能力が必要なワークロードに適していますが、RA3よりストレージサイズが小さいためコストが高くなります。
データセットのサイズ、クエリの複雑さ、パフォーマンス要件、コストなどを考慮して、ノードタイプやノード数をサイジングしてください。
ストレージオプション | ノードの種類 | vCPU | RAM (GiB) | ノードごとのデフォルトスライス | 1 ノードあたりのストレージ | ノード範囲 | 合計容量 |
---|---|---|---|---|---|---|---|
Dense compute | dc2.large | 2 | 15 | 2 | 160 GB NVMe-SSD | 1~32 | 5.12 TB |
Dense compute | dc2.8xlarge | 32 | 244 | 16 | 2.56 TB NVMe-SSD | 2~128 | 326 TB |
RA3 | ra3.xlplus (シングルノード) | 4 | 32 | 2 | 4 TB | 1 | 4 TB |
RA3 | ra3.xlplus (マルチノード) | 4 | 32 | 2 | 32 TB | 2~164 | 1024 TB |
RA3 | ra3.4xlarge | 12 | 96 | 4 | 128 TB | 2~325 | 8192 TB |
RA3 | ra3.16xlarge | 48 | 384 | 16 | 128 TB | 2~128 | 16,384 TB |
2. 水平スケーリング (Horizontal Scaling)
水平スケーリングは、クラスタにノード数を増加すること(スケールアウト)で性能を向上させるアプローチです。これにより、クエリ処理能力が向上し、大量のデータを効率的に処理できるようになります。
3. エラスティックリサイズ (Elastic Resize)
エラスティックリサイズは、数分でクラスタをリサイズ(スケールアップ)する機能です。必要に応じてノードの追加や削除が可能で、ピーク時の読み込み要求に対応するのに役立ちます。ただし、この操作中には数分間のダウンタイムが発生します。
4. 同時実行スケーリング (Concurrency Scaling)
同時実行スケーリングは、Amazon Redshiftはクエリの負荷が高い時に自動的に追加のスケーリングクラスタを追加する機能です。これにより、同時に実行されるクエリの増加に対応し、パフォーマンスを一貫して高く保ちます。なお、24 時間ごとに1時間分の同時実行スケーリングクラスタークレジットが貯まります(2024/04月現在)ので、積極的にご利用いただくことをおすすめします。
下記のブログは読み込みの検証ですが、現在は、読み書きともにスケーリングするようになりました。
Amazon Redshift Serverlessのスケーリング戦略
Amazon Redshift Serverlessは、「Simple」を実現するために徹底した自動化を重視しています。そのため、コンピューティングに関しては、ベースラインのRPU(Redshift Proceccing Unit)設定するのみです。ワークロードに応じて自動的にコンピューティングリソースとストレージ容量をスケーリングします。具体的には、クエリの複雑さ、実行頻度、対象データ量、同時に実行されるクエリ数などに基づいて、適切なリソース量が割り当てられます。
例えば、複雑で大規模なクエリが多数同時に実行される場合には、より多くのコンピューティングリソースやメモリが確保されます。一方、単純で小規模なクエリしか実行されていない時は、リソースを抑えコストを最小限に抑えます。このように、常に必要な量のリソースのみがプロビジョニングされるため、パフォーマンスとコストのバランスが最適化されるのがRedshift Serverlessの大きな利点です。
一方で、コストを重視するのかパフォーマンスを重視するかの「バランス」は用途によって異なります。そのため、コストとパフォーマンスのバランスを1-100の範囲で設定すると、後はAIが自動最適化してくれる機能を提供する予定です。Public Previewで公開していますのでお試しいただくのが可能です。
この機能では、AI技術を活用して過去のワークロードのパターンを学習します。そして、設定したコストとパフォーマンスのバランス(1-100)に基づき、データ量の変化、同時実行クエリ数、クエリの複雑さなど、ワークロードに影響を与えるすべての重要な側面を考慮し、ワークロードの変動に合わせて自動的にスケーリングを行います。これにより、設定された料金とパフォーマンスの目標を達成し維持することができます。
パフォーマンスチューニングの自動化
以前は、分散キー、ソートキー、圧縮エンコードなど、パフォーマンスチューニングを解説していたのですが、今では機械学習ベースの自動最適化によってチューニングである程度任せることができるようになりました。
ここでは、どのような機能が機械学習ベースの自動最適化によってチューニングされるかをご紹介します。
引用:AWS-Black-Belt_2023_Amazon-Redshift-Overview_v1(P.23)
Auto Analyze
Amazon Redshiftではデータが大きく変更されたタイミングで、統計情報が古くなっていると統計情報を自動更新するようになりました。
統計情報が常に新しくなることで、最適な実行プランに基づきクエリを実行することにより、、クエリのパフォーマンスが向上します。
Automatic vaccum delete
Amazon Redshiftにおける論理削除されたデータ領域を自動的に開放し、データブロックを再編成する機能です。論理削除されたレコードを特定、論理削除されたレコードが占有していたデータ領域を解放してデータブロックを再編成します。
論理削除されたレコードが占有していた領域を解放することで、ストレージ容量を節約します。また、データブロックの再編成により、クエリのパフォーマンスが向上します。
Automatic table sort
Amazon Redshiftでテーブルデータのソートを自動化する機能です。
未ソートブロックをソートしてソートブロックにコピーすることによって、ゾーンマップによるレンジスキャンが最適化され、パフォーマンスが向上します。
Automatic distribution key
Amazon Redshiftが自動的に最適な分散キーを選択して反映する機能です。この機能を利用するには、分散スタイルにauto
を設定します。
Automatic Distribution Keyは、適切なDistribution Keyの選択が難しい初心者や、テーブルの使用パターンがよくわからない場合に便利なオプションです。ただし、クエリのパフォーマンスを最適化するには手動でDistribution Keyを指定したほうがよい場合もあります。
Automatic sort key
Amazon Redshiftが自動的に最適なソートキーを選択して反映する機能です。ソートキーにauto
を設定します。
Automatic Sort Keyは、Automatic Distribution Keyと組み合わせて使うことで、テーブル設計の自動化をさらに進めることができます。初心者や頻繁にテーブル設計を変更するケースで特に便利なオプションと言えます。
Auto workload managemant
Amazon Redshiftのワークロード管理機能(WLM)を自動化するためのオプションです。Redshiftでは、同時実行するクエリの数とリソース割り当てをWLMキューで管理します。Auto WLMを有効にすると、Redshiftが自動的にキューの作成と設定を行ってくれます。
Auto WLMは一般的なユースケースに適していますが、同時実行スケーリングなど明示的に管理したい場合は、手動でWLMを設定したほうがよいでしょう。
Automatic column compression encoding
Amazon Redshiftにおいて列の圧縮エンコーディングを自動で最適化する機能です。エンコードにauto
を設定します。
自動で各列のデータ型や値の分布を分析し、最適なエンコーディングを指定されることで、ストレージ使用量の削減とパフォーマンス向上が期待できます。
Auto refresh & rewrite Materialized Views
Amazon Redshiftにおいて、マテリアライズドビューの自動更新と自動書き換えを行うものです。
元データが更新されたタイミングで、マテリアライズドビューを自動的に更新します。また、元データに対するクエリであったとしても、マテリアライズドビューが利用可能な場合、自動的にクエリを書き換えて、クエリのパフォーマンス向上が期待できます。
連携機能の充実
ここで紹介する機能により、シームレスなデータ統合と、データ移動を伴わないデータ活用「データメッシュ」の構築が容易になります。データレイクや外部データソースとRedshiftを連携させることで、データウェアハウス(DWH)の主目的である、安全にデータを共有・統合が実現できます。Redshiftにデータを集約した上で、RedshiftML等の機能を活用してデータ分析や機械学習を行うことができるのが大きな強みです。ストリームデータの取り込みやRDSからの直接ロードなど、データ統合プロセスの自動化によりデータ統合も簡略化が進められています。
Amazon Redshift Spectrum
Amazon Redshift Spectrumは、Amazon RedshiftからS3データレイクのデータに直接クエリを実行できる機能です。データを Redshift にロードすることなく、テラバイトからペタバイト規模のデータまで効率的に分析できます。Redshift Spectrumを使うことで、S3データレイクにクエリを発行(Predicate Pushdown)して、Redshiftのローカルデータと結合させて分析できます。
Amazon Redshift Federated Query
Amazon Redshiftから外部のデータソースに対してクエリを発行できる機能です。Federated Queryを使うことで、外部データソースに直接クエリを発行し、Redshiftのローカルデータと結合させて分析できます。
Federated Queryはデータレイクや他のデータベースソフトウェアなど、さまざまなデータソースをサポートしています。具体的には以下のようなソースに対応しています。
- Amazon Simple Storage Service (S3) - Parquet/ORC/CSV/JSONデータ
- Amazon DynamoDB
- Amazon RDS (PostgreSQL/MySQL)
- Amazon MemoryDB for Redis
- AWS Lambda (カスタムソース用)
下記のブログでは、PostgreSQLへの接続を検証しています。
Amazon Redshift Data Sharing
Amazon Redshift Data Sharingは、Amazon Redshiftクラスター間でデータを簡単かつ安全に共有できる機能です。Data Sharingを使うと、データプロデューサークラスタ(データ元のクラスタ)からデータコンシューマクラスタ(データ共有先クラスタ)にデータを直接的に共有できます。
re:Invent2023では、Data Sharingに対する書き込みもサポートしました。
Amazon Redshift ML
Amazon RedshiftにおけるMachine Learning(機械学習)機能を提供するサービスです。SQLクエリを使うだけで、モデルの構築、訓練、予測を行うことができます。外部のシステムや専用ツールを準備する必要がありません。データをRedshiftから移動させることなく機械学習モデルを活用できるため、セキュリティとパフォーマンスが向上します。データサイエンティストは特別な準備なしに、すぐに機械学習を適用できるのがRedshiftMLの大きな特長です。
Amazon Redshift Stresming Ingestion
Amazon Redshift Streaming Ingestionは、Amazon Redshiftへのストリーミングデータのロードを可能にする機能です。Streaming Ingestionを使うと、ApacheKafka、Amazon Kinesis Data Streams、Amazon Kinesis Data Firehoseなどからのストリーミングデータを直接Redshiftにロードすることができます。
Amazon Aurora MySQL zero-ETL integration with Amazon Redshift
Amazon Aurora MySQLとAmazon RedshiftのZero-ETL統合では、Aurora MySQLのデータベースから直接Redshiftにデータをロードするプロセスが自動化されます。これにより、データの移動と変換を簡素化し、リアルタイムやほぼリアルタイムでのデータ分析を可能にします。
更にデータのフィルタリングが可能になりました。
Amazon Redshift Multi-AZ for RA3 Cluster
Amazon Redshiftの可用性と障害耐性を高める機能です。Redshift RA3クラスターは、Redshiftの最新世代のインスタンスタイプです。RA3クラスターではMulti-AZ(マルチアベイラビリティゾーン)のサポートが追加されました。
Multi-AZを有効にすることで、計画的なメンテナンスや予期せぬ障害が発生した際でも、Redshiftクラスターの可用性を維持できます。RA3クラスターではレプリカがほぼリアルタイムで同期されるため、RPOとRTOが大幅に改善されています。
Amazon DataZone launches enhancements to Amazon Redshift integration
Amazon DataZoneは、Amazon Redshiftとの連携機能を強化しました。この強化により、Amazon Redshiftのテーブルやビューの公開とアクセス申請がより簡単になりました。Amazon DataZoneが、正式にAmazon Redshiftのサポートを開始しました。
Amazon Redshift for Apache Spark
Apache SparkとAmazon Redshiftを統合して使用できる機能です。Amazon Redshift for Apache Sparkを使えば、Spark アプリケーションからRedshiftを活用でき、両者の長所を最大限に引き出せます。データ分析パイプラインの構築が容易になります。
ユースケース
Amazon Redshift は、大規模なデータセットの分析に特化したクラウドデータウェアハウスサービスです。従来のオンプレミスデータウェアハウスと比較して、スケーラビリティ、パフォーマンス、コスト効率の面で多くの利点を提供します。
Redshift は、さまざまなユースケースで活用できますが、主なユースケースは以下のとおりです。
ユースケース | 概要 | 具体的な例 |
---|---|---|
データ分析 | 大規模なデータセットを高速で効率的に分析 | 顧客行動分析、市場動向分析、財務パフォーマンス分析 |
ビジネスインテリジェンス | BI ダッシュボードやレポートを作成 | 経営陣向け意思決定ダッシュボード、営業活動分析レポート |
機械学習 | 機械学習モデルのトレーニングと実行 | 顧客セグメンテーション、商品レコメンデーション、不正検知 |
データレイク | さまざまなソースからのデータを統合 | 企業全体でのデータ分析基盤、データ統合プラットフォーム |
リアルタイム分析 | リアルタイムデータストリーミング分析 | 顧客行動分析、金融市場分析、IoT データ分析 |
Amazon Redshiftの現在と未来
Amazon Redshiftを中心とした次世代データ分析基盤
Amazon Redshiftは、各種AWSサービスとシームレスに連携し、サイロ化を防ぐように設計されています。データレイク、トランザクションデータ、ストリームデータ、プロデューサークラスタとコンシューマクラスタ間のデータ共有、Sparkアプリケーションなど、データの所在に関わらずシームレスなデータ連携と、データ移動なしの活用を実現する機能を提供しており、データメッシュの容易な構築を可能にします。将来的には、DataZoneとの統合により、メタデータの充実とデータガバナンスの実現を目指しています。
引用:AWS-Black-Belt_2023_Amazon-Redshift-Overview_v1(P.26)
Previewの新機能
Amazon Redshift は、データソースの統合と分析を強化する革新的な機能の提供が予定されています。これらのプレビュー機能は現在開発中であり、今後さらに改良が加えられる予定です。
Amazon Redshift Auto Copy from S3(Preview)
Amazon Aurora PostgreSQLとの Zero-ETL 統合(Preview)
Amazon RDS for MySQLとの Zero-ETL 統合(Preview)
Amazon DynamoDBとの Zero-ETL 統合(Preview)
Data Sharing の AWS Lake Formation 統合(Preview)
Amazon Q generative SQL in Amazon Redshift(Preview)
料金
Amazon Redshiftでは、Amazon Redshift ProvisionedとAmazon Redshift Serverlessで、それぞれ別の料金体系を提供しています。
Amazon Redshift Provisionedは、固定料金に加えて利用したストレージや追加コンピュートリソースに応じた料金がかかりますが、大規模な分析が常時行われる場合には、よりコストパフォーマンスに優れる選択となります。
一方、Amazon Redshift Serverlessは、シンプルな課金体系を提供し、使用したコンピュートリソース量に基づいて料金が発生するため、利用量が比較的少ない場合や分析ニーズが不規則な場合に適しています。
項目 | Amazon Redshift Serverless | Provisioned Cluster |
---|---|---|
コンピューティング | - インスタンス起動時間 - Redshift Spectrum の利用料 - 同時実行スケーリング利用料 |
- RPUの実行時間 |
ストレージ | - RMS ストレージ利用料(RA3のみ) | - RMS ストレージ利用料 |
利点 | - 大規模で安定した分析ニーズに対してコストパフォーマンスが高い | - 分析作業が少ない時期のコストを抑えられる |
注意点 | - 利用しない時期でも最低限のコストがかかる | - 大量の分析が必要な場合、コストが予測しにくい可能性がある |
※ RPU: Redshift Compute Unitの略 ※ RMS: Redshift Managed Storageの略
Amazon Redshift Provisioned Cluster
インスタンスタイプ | vCPU | メモリ | ストレージ | I/O | デフォルトノード数 | コンピュートスライス数 | ストレージスライス数 | 料金(時間あたり) |
---|---|---|---|---|---|---|---|---|
ra3.xlplus | 4 | 32 GiB | 32TB RMS | 1 | 650 MB/s | 2 | 1~16 | $1.278 |
ra3.4xlarge | 12 | 96 GiB | 128TB RMS | 2.0 GB/s | 4 GB/s | 4 | 2~32 | $3.836 |
ra3.16xlarge | 48 | 384 GiB | 128TB RMS | 8.0 GB/s | 16 GB/s | 16 | 2~128 | $15.347 |
dc2.large | 2 | 15 GiB | 0.16TB SSD | 0.6 GB/s | 2 GB/s | 2 | 1~32 | $0.314 |
dc2.8xlarge | 32 | 244 GiB | 2.56TB SSD | 7.5 GB/s | 16 GB/s | 16 | 2~128 | $6.095 |
- RMS の料金:RMSストレージに保存されたデータは、RA3 ノードタイプに保存された実際のデータ量に基づいて別途請求されます。東京リージョンの場合、USD 0.0261/GB/月です。
Amazon Redshift Serverless
項目 | 内容 | 東京リージョン料金 |
---|---|---|
CPU | 使用したRPU時間 x RPU単価 x 時間あたりの料金 | $0.494/RPU/時間 |
同時実行スケーリング | 料金に含まれる | 別途料金は不要 |
データレイククエリ | 料金に含まれる | 別途料金は不要 |
RMSストレージ | RMSストレージ | $0.0261/GB/月 |
例:1時間あたり 128 RPU を使用した場合の演算処理料金:
128 RPU x $0.494/時間 x 1時間 = $63.23
終わりに
Amazon Redshiftは、ServerlessとProvisioned Clusterの二つのアーキテクチャを選択できる柔軟性によって、さまざまな企業のニーズに対応できます。Serverless オプションは、コスト効率とスケーラビリティに優れ、データ分析の民主化を推進します。一方、Provisioned Cluster オプションは、高いパフォーマンスと柔軟性を必要とするワークロードに対応します。
進化し続ける分析プラットフォームとして、Amazon RedshiftはAWSサービスとの連携強化により、データ統合と分析をシームレスに実現します。さらに、ユーザー視点の使いやすさを向上させ、複雑なチューニングを必要とせずに、データベース感覚で利用可能になりました。
Amazon Redshiftは、あらゆる規模の企業が、データ分析を最大限に活用するために最適なプラットフォームです。
合わせて読みたい
Amazon Redshift Overview【AWS Black Belt】2023/04 | 資料(PDF)
論文から垣間見るAmazon Redshiftの進化と深化 2022
Amazon Redshiftについて、もっとアーキテクチャなどをより深く理解したい方は、2022年に公開された論文を解説したブログをご覧ください。