AWS Lake Formationのチュートリアルをやってみた！

Seiichi Arai

2020.04.17

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

前回のブログでAWS Lake Formationを少し触ってみましたが、イマイチ概念がつかめなかったのでこちらのチュートリアルもやってみようと思います。

チュートリアルは2つ用意されているのですが、今回は

Tutorial: Creating a Data Lake from an AWS CloudTrail Source

をやっていきます。

※個人的にわかりやすい手順にまとめているので、実際のステップと異なる部分がありますが、ご了承ください。

Lakeformationとは？

個人的に押さえておきたいポイントは次の3つです。

IAMを拡張した独自のアクセスコントロールモデルによるきめ細かなアクセス制御が可能
AWS Glueの拡張機能（データカタログ、ジョブ、クローラー、ワークフローなどの実態はGlueのそれ）
AWS Lake Formation自体は無料だが、配下のサービス利用費が発生

Black Beltの資料がとても参考になりました。さらっと目を通しておくと良いでしょう。

20191001 AWS Black Belt Online Seminar AWS Lake Formation from Amazon Web Services Japan

事前準備

※ これ以降の作業はAdministratorAccess権限を持つ管理者としてログインし、実施していきます。

Lake Fromationの設定

Lake Formationを利用する上での基本設定です。

長くなるので今回のブログでは割愛しますが、ドキュメントを参考に設定を済ませておいてください。

CloudTrailの有効化

CloudTrailは、指定されたS3バケットに証跡のログファイルを配信します。

こちらも今回割愛しますが、ドキュメントCloudTrailを有効化してS3へログを吐き出すように設定しておいてください。

IAM Userの作成

Lake Formationを利用するユーザーを作成します。

アクセス権限には最低限のポリシーとして、

AWS管理ポリシー: AmazonAthenaFullAccess
インラインポリシー: DatalakeUserBasic

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "lakeformation:GetDataAccess",
                "glue:GetTable",
                "glue:GetTables",
                "glue:SearchTables",
                "glue:GetDatabase",
                "glue:GetDatabases",
                "glue:GetPartitions"
            ],
            "Resource": "*"
        }
    ]
}

をアタッチします。

User name/Passwordは後ほど利用するので保管しておいてください。

LakeFormationWorkflowRoleへCloudTrailへのアクセス権限を付与

事前設定で作成済みのLakeFormationWorkflowRoleにCloudTrailへのアクセス権限を付与します。

ポリシードキュメント

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "s3:GetObject",
            "Resource": ["arn:aws:s3:::<your-s3-cloudtrail-bucket>/*"]
        }
    ]
}

この時点で、LakeFormationWorkflowRoleには