[速報] Amazon Redshift の新機能「Data Lake Export」でParquet形式にUNLOADできるようになりました #reinvent
DA事業本部の川崎です。
re:Invent2019の2日目のキーノートでAmazon Redshift の新機能「Data Lake Export」が発表されました。
【12/4追記】
AWSブログにも日本語訳の記事がアップされていますので、ごご参考までに。
Amazon Redshift の新機能 – データレイクエクスポートとフェデレーテッドクエリー | Amazon Web Services ブログ
Parquetとは
カラムナ指向のデータフォーマットです。 データを列単位で保存するため、大規模なデータを処理する際に、 計算に必要なカラムだけ取り出して処理をしたり、効率的に圧縮することができます。
何が変わったか
今までRedshiftは、Parquetファイルの読み込みに対応していましたが、 UNLOADではParquet形式に対応していませんでした。
「Data Lake Export」を使うことで、より手軽にParquetフォーマットへの出力が可能になりました。
まとめ
これまで、Redshift上のデータをデータレイクで利用するためには、 CSVフォーマットで出力したものを利用するか、 Glueを用いてCSVをParquetに変換する必要がありました。
今後は、データレイクへの入出力が可能になり、データレイクとの親和性がより高まりました。 データレイクの構築を、より効率的に進めることができます。