AWS Glue DataBrew入門チュートリアル実践 #6 – データセットの変換処理実行

2020.11.17

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

先日新しくリリースされたAWS Glueの新機能「AWS Glue DataBrew」。

前述手順では、AWS Glue DataBrewのデータプロファイルの作成及び作成されたデータプロファイルの内容を確認しました。

当エントリでは、次の手順となる手順その6「データセットの変換処理実行」についてその内容を紹介していきます。

当エントリでの実践手順

このステップでは、作成したレシピを使って実際にデータセット全体を変換してみたいと思います。

ジョブが実行されると、DataBrewはデータセット内のすべてのデータにレシピを適用し、変換されたデータをAmazon S3バケットに書き込みます。変換されたデータは、元のデータセットとは別物です。DataBrewはソースデータを変更しません。

※当ステップの手順を実行する前に、予め書き込みが行えるAmazozn S3バケットがアカウント上に存在していることを確認しておいてください。

レシピで定義した処理をデータセットに対して行うには、「レシピジョブ」が必要となります。ダッシュボードメニューの[JOBS]から[Recipe jobs]タブを開き、[Create job]を押下。

レシピジョブ作成に必要な設定を行っていきます。任意のジョブ名(ここではchess-winner-summary)を入力、ジョブタイプには[Create a recipe job]を指定。

ジョブ入力設定では、チュートリアルで作成したデータセット(chess-games)、レシピも同様に作成済みのもの(chess-project-recipe)を指定。

ジョブ出力設定では、出力したいデータの形式などを指定します。ファイルタイプは以下の様に多彩な選択肢が揃っています。ここではCSVを指定。

その他、S3 locationは予め作成しておいたS3バケット及びフォルダを指定します。

権限についてはこちらも予め手順内で作成したIAM Roleを指定、その他はデフォルト指定のまま[Create and run job]を押下。

程なくしてジョブ実行が完了。成功(Succeeded)したことを確認しつつ、[Job Output]列のリンクをクリック。

ジョブ出力の結果出力先指定リンクをクリック。

該当Amazon S3バケット・フォルダに遷移。レシピジョブ実行結果の出力フォルダが別途作成されています。

対象フォルダの中身を確認。ファイルが数個出力されていますね。

中身を確認してみます。以下のような形で、CSV形式でデータが出力されていることを確認出来ました！(でも1ファイル1行だった...この辺まとめられる設定とかはどこかで出来るのかしら...というのがちょっと気になりました)

winner,victory_status,winner_count
black,"other player resigned",1039

以上でAWS Glue DataBrewのチュートリアルは完了です。作成したリソースを諸々削除するにはそれぞれ以下の手順を実行します。

というわけで、AWS Glue DataBrew実践チュートリアルのステップ6「データセットの変換処理実行」の紹介でした。

チュートリアルの実践内容は当エントリ(#6)で完了です。お疲れさまでした！