【アップデート】Glue DataBrew が、ジョブで作成されたデータセットをGlueデータカタログへ直接書き込めるようになりました

2021.07.07

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

どーもsutoです。

AWS Glue DataBrewのアップデートで、ETL処理(レシピ)を実行するジョブから作成されたデータセットを AWS Glue データカタログに直接書き込む機能をサポートするようになりました。

データカタログの Amazon S3、Amazon Redshift、および Amazon RDS (Aurora、Oracle、SQL Server、MySQL、およびPostgreSQL) テーブルに保存することができます。

実際にやってみた

使用するデータは、前回記事で作成したcsvファイルを使ってみます。DataBrewのデータセット登録〜プロジェクト作成〜レシピ作成までの手順は下記のブログ記事をご参照いただけますと幸いです。

よって本記事では、Glueデータカタログ(S3)を出力先としたジョブの作成と実行の手順をまとめます。

ジョブの作成

Glue DataBrewのメニュー「ジョブ」から「ジョブを作成」をクリックし、ジョブ名、データセットを入力する

出力先を確認すると、Amazon Glue Data Catalog(S3、Redshift、RDS)が選択肢にあることがわかります。

検証として今回はGlue Catalog S3 tablesでジョブを作成してみます。データベース名「default」、Glueテーブルも新規作成でいきます。

ジョブ作成が終わったら「ジョブを実行」します。

ジョブ実行完了後のGlueテーブルを確認してみると、データカタログ内にテーブルが作成されていました。

作成されたテーブルをAthenaでクエリして結果を見ることもできました。

まとめ

新しいデータセットへの接続として、Glue Data Catalogをデータセットへ読み込むことはできましたが、今回のアップデートでようやく書き込みもできるようになってうれしいアップデートだったと思います。

しかし、Glue Data Catalog(S3)へはCSVファイルの出力しか選択できなかったので、今後PARQUETなども対応されればよいなと思っています。

また、個人的にはGZipのような圧縮ファイルでもデータセットの読み込みやS3出力ができることも期待しているところです。