AWS Glue DataBrew入門チュートリアル実践 #1 – 事前準備とプロジェクトの作成

AWS Glue DataBrew入門チュートリアル実践 #1 – 事前準備とプロジェクトの作成

Clock Icon2020.11.17

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

先日新しくリリースされたAWS Glueの新機能「AWS Glue DataBrew」。

当エントリでは、AWS Glue DataBrewのチュートリアル手順その1「事前準備とプロジェクトの作成」についてその内容を紹介していきます。

目次

 

事前準備

まずはじめに、AWS Glue DataBrewのチュートリアルを始める前に(チュートリアルで)使用することになるS3バケットを作成しておきます。ここではAWS Glue DataBrewが利用可能なリージョンの中で有効となっているヴァージニアリージョンに所定の名前でS3バケットを作成しました。

その他、IAMロールに関する準備もAWS Glue DataBrewを利用する際に必要となりますが、この部分については手順を進めていく過程で合わせて作成していきます。(当チュートリアルを実行するには、IAM管理権限を有するユーザー、もしくは予め必要なIAM情報を作成しておいてもらう必要があります)

 

プロジェクト基本情報の設定

ここからは実際にAWS Glue DataBrewのメニューから色々とリソースを作成していきます。まずは大枠となる「プロジェクト」の作成から。AWS管理コンソールにログインし、DataBrewのメニューに遷移。TOPページより「Create project」ボタンを押下。

プロジェクト作成画面に遷移。必要事項を入力していきます。プロジェクト名にはchess-projectと入力。入力内容に合わせて、レシピ名にはchess-project-recipeという値が自動で補完されました。

チュートリアルで用いるデータセットについては、予め用意されているサンプルファイルを利用します。[Sample files]→[Famous chess game moves]を選択。データセット名には合わせてchess-gamesという値が自動で補完されました。

 

IAMポリシー&IAMロールの作成

必要な権限(Permissions)の設定。ここでは必要なものを新規作成します。[Create new IAM role]を選択。

別途ウインドウが起動し、以下のような作成手順が表示されます。ここはこの手順に倣って必要なリソースを作成していきます。

[Create new IAM policy]のリンクをクリックし、別途立ち上がったIAMの[Create policy]画面にて[JSON]タブを選択。合わせて前述画面で[COPY JSON]を押下、コピーした内容をそのまま貼り付け、12行目と13行目の:::以降の内容を、予め作成したS3バケットの値に書き換え、[Review policy]を押下。

内容が問題無ければ次の画面に進みます。ポリシー名に任意の名前(ここではチュートリアルに倣ってAWSGlueDataBrewDataAccessPolicyとしました)を入力、[Create policy]押下でポリシーを作成します。

次いでIAM Roleの作成。ポリシー同様、[Create new IAM role]のリンクをクリックし、遷移した画面にてサービスに[DataBrew]を選択して[Next: Permissions]を押下。

ロールに、前述手順で作成した作成したIAM policyをポリシーを選択して付与します。[Next: Tags]押下。

AWSGlueDataBrewDataAccessRoleという名称を設定して[Create role]を押下、ロールを作成します。

 

プロジェクト作成

AWS Glue DataBrewを利用する際のIAMの準備がこれで整いました。ロール名選択箇所の更新ボタンを押下すると、作成したIAM roleが設定出来るようになっているはずです。作成したロールを選択。

その他、プロジェクトについてはサンプリング及びタグの情報が指定可能となっています。ここでは初期値のまま進めることにします。[Create project]押下。

プロジェクトの画面に遷移し、DataBrewのガイドが表示されます。

また、処理の進捗状況に応じた形で以下のようなステータスを示す画とメッセージが表示されていきます。

左上から順番に、セッションの初期化(Initiating session)→データサンプルの取得(Retrieving data sample)→データ統計情報の生成(Generating data statistics)→データフレームの準備(Preparing dataframe)。

暫しの時間を経て、プロジェクトが無事作成されました!パッと見た感じ、情報量が豊富で出来ることも色々ありそうな画面UIですね。

 

まとめ

というわけで、AWS Glue DataBrew実践チュートリアルのステップ1「事前準備とプロジェクトの作成」の紹介でした。

引き続き、次のステップ「2.“レシピ” を定義してデータを集約・加工する」を御覧ください。

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.