[速報] Amazon Redshift の新機能「Data Lake Export」でParquet形式にUNLOADできるようになりました #reinvent

DA事業本部の川崎です。

re:Invent2019の2日目のキーノートでAmazon Redshift の新機能「Data Lake Export」が発表されました。

【12/4追記】

AWSブログにも日本語訳の記事がアップされていますので、ごご参考までに。

Amazon Redshift の新機能 – データレイクエクスポートとフェデレーテッドクエリー | Amazon Web Services ブログ

Parquetとは

カラムナ指向のデータフォーマットです。 データを列単位で保存するため、大規模なデータを処理する際に、 計算に必要なカラムだけ取り出して処理をしたり、効率的に圧縮することができます。

何が変わったか

今までRedshiftは、Parquetファイルの読み込みに対応していましたが、 UNLOADではParquet形式に対応していませんでした。

「Data Lake Export」を使うことで、より手軽にParquetフォーマットへの出力が可能になりました。

まとめ

これまで、Redshift上のデータをデータレイクで利用するためには、 CSVフォーマットで出力したものを利用するか、 Glueを用いてCSVをParquetに変換する必要がありました。

今後は、データレイクへの入出力が可能になり、データレイクとの親和性がより高まりました。 データレイクの構築を、より効率的に進めることができます。