[祝] AWS Glueが東京リージョンで利用可能になりました

2017.12.22

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

昨年のre:Invent 2016で発表された フルマネージドETLサービス AWS Glueが、本日からAWS東京リージョンで利用可能になりましたので紹介させて頂きます。

最初にやること、AWS Glue Data Catalogの移行

はじめて東京リージョンで AWS Glueを利用開始するには、データカタログを Amazon Athena Data Catalog から AWS Glue Data Catalogに移行する必要があります。基本的にデフォルトで構いませんが、すでにAmazon Athenaを本番運用している方はどのような変更が生じるのかを把握することをおすすめします。変更手順は、以下のブログをご参照ください。

AWS Glue 実践入門:AWS Glue Data Catalogへのアップグレード方法

クローラを実行してみる

せっかくGlueが東京リージョンに来たので、お手持ちのデータをクロールで試してみたいと思います。

クローラ名の指定

クローラ名はわかりやすければなんでも構いません。 メニューからクローラを選んで、[Add Crawler]を押すと開始します。(「東京」って文字が眩しく感じられる...)

クローラ名の指定

データを指定

クロールしたいS3上のデータフォルダを指定します。

他に定義しないので、Noで次に進みます

IAMロールの指定

このIAMロールは AWS Glue サービスが実行やリソースにアクセスするための権限を指定します。このIAMロールを作成していない場合は、後述の「AWS Glue サービスのIAMロールの作成」を御覧ください。

参考: AWS Glue サービスのIAMロールの作成

AWS Glue サービスが利用するロール(AWSGlueServiceRoleDefault)は、実行やリソースにアクセスするための権限として、以下の例ではAmazonS3FullAccess と AWSGlueServiceRoleの2つのマネージドポリシーを付与しています。

20170920-aws-glue-zeppelin-AWSGlueServiceRoleDefault

実行の方法の指定

今回はすぐに実行するので、[Run on demand]を指定します。

クローラの出力先を指定

ここでは、テーブル定義を保存したいDatabaseを指定します。

設定の確認

設定を確認して。[Finish]を押すとクローラの完成です。

クローラの実行

早速実行してみましょう。

数分でクロールが終了しました。

Athenaからクエリを実行

クローラが自動的に定義したテーブルをAthnaから参照できました。カラム名が col0となっているのはヘッダ行が存在しないデータファイルだからです。

最後に

一般にビッグデータ関連のクラウドサービスは、北米リージョンのみサービス提供されることがほとんどですが、AWSは東京リージョンにもいち早くAWS Glueをサービス開始しています。皆さんも早速、お手持ちの色々なデータをクロールしてクエリーしてみてください。AWS Glueでクロールを試してみましたがETLもぜひお試しください。