[速報] Amazon Redshift の新機能「Data Lake Export」でParquet形式にUNLOADできるようになりました #reinvent

2019.12.04

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

DA事業本部の川崎です。

re:Invent2019の2日目のキーノートでAmazon Redshift の新機能「Data Lake Export」が発表されました。

【12/4追記】

AWSブログにも日本語訳の記事がアップされていますので、ごご参考までに。

Parquetとは

カラムナ指向のデータフォーマットです。データを列単位で保存するため、大規模なデータを処理する際に、計算に必要なカラムだけ取り出して処理をしたり、効率的に圧縮することができます。

今までRedshiftは、Parquetファイルの読み込みに対応していましたが、 UNLOADではParquet形式に対応していませんでした。

「Data Lake Export」を使うことで、より手軽にParquetフォーマットへの出力が可能になりました。

これまで、Redshift上のデータをデータレイクで利用するためには、 CSVフォーマットで出力したものを利用するか、 Glueを用いてCSVをParquetに変換する必要がありました。

今後は、データレイクへの入出力が可能になり、データレイクとの親和性がより高まりました。データレイクの構築を、より効率的に進めることができます。