[速報] S3からの自動取り込みをサポートする Amazon Redshift auto-copy from S3 が発表されました!(preview) #reinvent

2022.12.01

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

データアナリティクス事業本部のコンサルティングチームの石川です。現在開催中のAWS re:Invent 2022 の Swami SivasubramanianさんによるKeynoteにて、継続的な取り込みのためのシンプルなデータパイプラインを簡単に作成、維持できるようになる Amazon Redshift auto-copy from S3 が発表されました!本日から一部のリージョンでプレビューが開始されました。

Amazon Redshift auto-copy from S3 とは

本日、S3 からの自動コピーをサポートするようになりました (プレビューで利用可能)。この新しい機能により、Redshift は、指定したS3上に到着したファイルをデータ ウェアハウスに自動的にロードします。ファイルは、CSV、JSON、Parquet、Avroなど、RedshiftのCOPYコマンドでサポートされている任意の形式を使用できます。コピー手順を手動で、または繰り返し実行する必要はありません。Redshift は、ファイルの取り込みを自動化し、内部でデータの読み込み手順を処理します。

この機能の仕組み

この機能は、これまでと同様にCOPYステートメントを実行して、S3上のデータソースからローカルテーブルにデータをロードします。今回、COPYステートメントをコピージョブに保存できるようになりました。これにより、指定されたS3パスで検出された新しいファイルが自動的に読み込まれます。コピージョブは、以前に読み込まれたファイルを追跡し、取り込みプロセスから除外します。取り込み状況は、Redshiftのシステムテーブルを使用して監視できます。自動ロードが不要な場合は、コピージョブを手動で実行してコピーステートメントを再利用し、データの重複を防ぐこともできます。なお、この機能は、プロビジョンドクラスタのみのサポートとなります。

リージョン

以下のAWS リージョンでプロビジョンドクラスタのプレビューとして利用できます。

  • バージニア北部リージョン(us-east-1)
  • オハイオリージョン(us-east-2)
  • オレゴンリージョン(us-west-2)
  • アイルランドリージョン(eu-west-1)
  • ヨーロッパ (eu-north-1)
  • 東京リージョン(ap-northeast-1)

最後に

以前から要望の多い機能であっただけに、今日一番キーノート会場が沸きました。先日、Amazon Redshiftが Amazon KDS と Amazon MSK のリアルタイムストリーミングインジェストの一般提供を発表!されたばかりでしたので、この機能との棲み分け、詳細について気になるところです。追加情報が入り次第、この機能を試したいと思います!

合わせて読みたい

参考文献