AWS Glue DataBrew入門チュートリアル実践 #3 – 変換処理の追加と”レシピ”のバージョン管理

2020.11.17

先日新しくリリースされたAWS Glueの新機能「AWS Glue DataBrew」。

前述手順では、指定したリソースに対して「レシピ」を作成・定義する事でデータの加工を行う手順を実践しました。

当エントリでは、次の手順となる手順その3「変換処理の追加と"レシピ"のバージョン管理」についてその内容を紹介していきます。

目次

 

当エントリでの実践手順

当エントリでは、前述手順で実践したレシピに対して更に変換処理を追加し、レシピ上で「設定のバージョン管理」が行われていることを確認します。

追加条件としてチェスの勝敗には「引き分け」が存在することを踏まえ、これらのデータを除外すること、またカテゴリの文字列情報を任意の値に置換(replace)するといった処理を追加していきます。

 

レシピへの条件追加(条件の不一致)

ここからは実践に移っていきます。少し時間を置いてプロジェクトに遷移し直すと、以下のような形で「レシピステップの検証(Validating recipe steps)」という確認作業がデータに対して入るようになりました。

変換ツールバーより[FILTER]→[By condition]→[is not]を選択。

実施したいのは「引き分けを除外する」という内容なので、以下の設定を行います。[Preview shown]を押下、適用されている内容を確認の上、[Apply]を押下。

  • Source column(対象項目):winner
  • Filter condition(条件):Is not,draw(文字列として入力)

レシピに対してステップが追加されました。

 

レシピへの条件追加(文字列置換)

続けてもう3つステップを追加します。[CLEAN]→[Replace value or pattern]を選択。

この処理は、任意の文字列を別の任意の文字列に置換する、という内容となります。下記内容を指定し、[Preview Shown]押下。所定の内容への置換が行われていることを確認し、[Apply]押下。

  • Source columns(対象項目):victory_status
  • Specify values to replace(置換対象の指定方法):Value or pattern
  • Value to be replaced(置換対象項目・値):Enter custom value, mate
  • Replace with value(置換内容):checkmate

同じ手順を用いて、その他項目についても置換処理を追加していきます。

  • Source columns(対象項目):victory_status
  • Specify values to replace(置換対象の指定方法):Value or pattern
  • Value to be replaced(置換対象項目・値):Enter custom value, resign
  • Replace with value(置換内容):other player resigned

  • Source columns(対象項目):victory_status
  • Specify values to replace(置換対象の指定方法):Value or pattern
  • Value to be replaced(置換対象項目・値):Enter custom value, outoftime
  • Replace with value(置換内容):time ran out

 

レシピに対して再度パブリッシュを実行

都合3つのステップを追加した形となりました。以下の様にステップも3つ追加されていることが確認出来ます。前エントリ同様、ここまでの内容をパブリッシュします。

追加(保存)の際の手順は前エントリと同様。ここでもステップが3つ追加されていることが確認出来ています。

パブリッシュが成功しました。

レシピ名下のリンク(Version 2.1〜と表記のあるところ)をクリックすると、以下のような形でレシピ毎のバージョン遷移状況を確認することが出来ます。最新バージョンでは以下のような形で都合7つのステップが設定されている内容で表示されています。

最初に作成したレシピのバージョン、Version1.0の内容を確認してみます。こちらは前述手順通り、3つのステップを設定したことが内容としても確認出来ています。

 

まとめ

というわけで、AWS Glue DataBrew実践チュートリアルのステップ3「変換処理の追加と"レシピ"のバージョン管理」の紹介でした。

引き続き、次のステップ「4.DataBrewで作成されたリソースを確認する」を御覧ください。