[アップデート] Amazon Redshift Apache Iceberg テーブルの読み取り専用アクセスが一般提供開始（GA）になりました #AWSreInvent

AWS re:Invent 2023

2023.11.30

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部のコンサルティングチームの石川です。

本日より、Amazon Redshiftは、Apache Iceberg テーブルのクエリが一般提供開始（GA）になりました。データレイク上の Apache Iceberg テーブルにアクセスし、シームレスにデータウェアハウス内のデータと結合できるようになりました。

Apache Icebergとは

Apache Icebergは、Netflixで開発された大規模なデータ処理のためのOTF(Open Table Format）の一つです。Hiveのシステムの制限を改善するために設計されており、構造化されたデータの効率的でスケーラブルな管理を提供します。ACIDトランザクション、スキーマ進化、効率的なメタデータの取り扱い、分離されたメタデータレイヤー、様々なデータ形式とストレージシステムのサポートなどの特長があります。

Apache Icebergサポートがもたらすベネフィット

Icebergはテーブルのメタデータを実際のデータから分離するため、より効率的なメタデータ操作が可能となり、パフォーマンスが向上します。複数のファイル形式やストレージシステムをサポートしており、Amazon Athena、AWS Glue、Amazon EMRなどのさまざまなビッグデータサービスでも利用可能です。つまり、これらのサービス間でデータの共有が可能になります。

また、Icebergの設計はスケーラビリティに重点を置いており、ペタバイト規模のデータを高性能で低レイテンシで扱えます。一貫性と信頼性に重点を置いた設計から、分散環境で大量のデータを扱うデータ分析のテーブルフォーマットとして採用を進んでいます。

本日、一般提供開始（GA）になり、Amazon Redshiftにおいても本番環境に積極的に利用できるようになりました。

特長

Amazon Redshiftは、自動マウントされたデータカタログに最近導入された Iceberg サポートにより、追加の作業なしでAWS Glueデータカタログ内の既存のIceberg テーブルにアクセスできます。

このリリースでは、Parquet データファイルと Apache Iceberg テーブルを使用した Zstandard 圧縮のサポートも導入され、より高い圧縮率と改善された圧縮/解凍パフォーマンスが提供されます。

制限事項

クエリのみ
- Amazon Redshift は、Apache Iceberg テーブルへの読み取り専用アクセスのみサポートします
Iceberg データを Amazon Redshift に取り込み
- INSERT INTO または CREATE TABLE AS コマンドを使用して、Iceberg テーブルからローカルの Amazon Redshift テーブルにデータをインポートできます
マテリアライズドビューの増分更新
- データレイクテーブルでの増分更新、自動更新、自動クエリ書き換え、および自動 MV は現在サポートされていません
データ共有
- Apache Iceberg テーブルを含むデータレイクテーブルをサポートしていません。
タイムトラベルクエリ
- 未サポート