[速報] S3からの自動取り込みをサポートする Amazon Redshift auto-copy from S3 が発表されました!(preview) #reinvent
データアナリティクス事業本部のコンサルティングチームの石川です。現在開催中のAWS re:Invent 2022 の Swami SivasubramanianさんによるKeynoteにて、継続的な取り込みのためのシンプルなデータパイプラインを簡単に作成、維持できるようになる Amazon Redshift auto-copy from S3 が発表されました!本日から一部のリージョンでプレビューが開始されました。
Amazon Redshift auto-copy from S3 とは
本日、S3 からの自動コピーをサポートするようになりました (プレビューで利用可能)。この新しい機能により、Redshift は、指定したS3上に到着したファイルをデータ ウェアハウスに自動的にロードします。ファイルは、CSV、JSON、Parquet、Avroなど、RedshiftのCOPYコマンドでサポートされている任意の形式を使用できます。コピー手順を手動で、または繰り返し実行する必要はありません。Redshift は、ファイルの取り込みを自動化し、内部でデータの読み込み手順を処理します。
この機能の仕組み
この機能は、これまでと同様にCOPYステートメントを実行して、S3上のデータソースからローカルテーブルにデータをロードします。今回、COPYステートメントをコピージョブに保存できるようになりました。これにより、指定されたS3パスで検出された新しいファイルが自動的に読み込まれます。コピージョブは、以前に読み込まれたファイルを追跡し、取り込みプロセスから除外します。取り込み状況は、Redshiftのシステムテーブルを使用して監視できます。自動ロードが不要な場合は、コピージョブを手動で実行してコピーステートメントを再利用し、データの重複を防ぐこともできます。なお、この機能は、プロビジョンドクラスタのみのサポートとなります。
リージョン
以下のAWS リージョンでプロビジョンドクラスタのプレビューとして利用できます。
- バージニア北部リージョン(us-east-1)
- オハイオリージョン(us-east-2)
- オレゴンリージョン(us-west-2)
- アイルランドリージョン(eu-west-1)
- ヨーロッパ (eu-north-1)
- 東京リージョン(ap-northeast-1)
最後に
以前から要望の多い機能であっただけに、今日一番キーノート会場が沸きました。先日、Amazon Redshiftが Amazon KDS と Amazon MSK のリアルタイムストリーミングインジェストの一般提供を発表!されたばかりでしたので、この機能との棲み分け、詳細について気になるところです。追加情報が入り次第、この機能を試したいと思います!