[アップデート] Amazon Athena と Amazon S3 Express One Zone によるクエリを高速化 #AWSreInvent

2023.11.29

データアナリティクス事業本部のコンサルティングチームの石川です。

本日より、Amazon Athenaは、Amazon S3 Express One Zoneストレージクラスに保存されたデータでクエリを高速化できるようになりました。

Amazon S3 Express One Zoneって何、なぜ速いのか?

Amazon S3 Express One Zoneは、S3 Standardストレージクラスよりも最大10倍優れたパフォーマンス、一貫した1桁ミリ秒のレイテンシで毎秒数十万のリクエストを処理するように設計された新しいS3ストレージクラスです。オブジェクトは単一のAWSアベイラビリティゾーン内の専用ハードウェア上に保存、複製されます。リクエスト料金はS3 Standardストレージクラスよりも50%安く、保存は7倍高いです。

一方、単一のアベイラビリティゾーンに保存されているため、アベイラビリティゾーンの全体または一部が消失または損傷した場合、データを失う可能性がある点は注意が必要です。しかし、これらの事象を除けば、独立したディスクやホスト、ラックレベルの障害からデータを保護するために、リージョナルストレージクラスと同等のエンジニアリング設計が採用されており、99.999999999%(イレブンナイン)のデータ耐久性を実現していると説明されています。

つまり、ストレージが速いから、Athenaのクエリも速くなるということです。

Athenaのクエリは、どれくらい速くなる?

S3 Express One Zoneは、最も頻繁にアクセスされるデータや遅延に敏感なアプリケーションに対して、一貫した1桁ミリ秒のデータアクセスを提供することを目的として構築された、高性能の単一アベイラビリティゾーンストレージクラスです。

Amazon Athena と Amazon S3 Express One Zone ストレージクラスに保存されたデータ使用して、S3 Standardよりも最大2.1倍高速なクエリパフォーマンスの改善されると説明されています。

この高速なクエリを利用するには

S3 Express One Zoneが利用可能なAWSリージョンで使用できます。最初に、データをS3 Express One Zoneストレージに移行し、AWS Glueデータカタログを使用してデータをカタログ化し、Athenaでクエリを実行します。

制限事項

以下のファイルおよびテーブル形式はサポートされていないか、サポートが制限されています。リストにないフォーマットでもAthenaでサポートされている場合(Parquet、ORC、JSONなど)、S3 Express One Zoneストレージでの使用もサポートされています。

ファイルもしくはテーブル形式 制限事項
Apache Avro サポートされていません
CloudTrail logs サポートされていません
Apache Hudi サポートされていません
Amazon Ion サポートされていません
Logstash logs サポートされていません
Apache WebServer logs サポートされていません
Delta Lake DDLは、サポートされていません

最後に

「単一のアベイラビリティゾーンに保存されているため、アベイラビリティゾーンの全体または一部が消失または損傷した場合、データを失う可能性がある点は注意が必要」という点は、若干怖いなと感じてしまいます。データソースは、S3 Standardストレージクラスを利用、一時テーブルや毎日洗い替えをする集計テーブルなどは、S3 Express One Zoneを利用するなど、用途をうまく分けて利用することが良いかもしれません。S3の利用費を50%削減して、パフォーマンスを改善できるのは良い選択肢です。

合わせて読みたい