Amazon S3 データレイクハンズオン実施時の注意点 (2020年12月)

Amazon S3 データレイクハンズオン実施時の注意点について記しました。データレイク関連サービスの概要やサービス間連携について学べる良いハンズオンです。
2020.12.15

哈喽大家好、コンサルティング部の西野です。

AWS認定試験のひとつである AWS Certified Data Analytics - Specialty を近日中に受験しようと思っています。
が、「データ分析?データレイク?なんもわからん」 という状態なので、まずは公式のハンズオンをやってみました。

aws-samples/amazon-s3-datalake-handson

本稿では、2020年12月時点で本ハンズオンを実施する際に注意するべき点について記します。
ハンズオンの詳細についてはご自身で実施し確認いただくか、先人たちのブログをご参照ください。
(前者を強くおすすめします。)

注意点

ハンズオンをやっていくなかで私がハマった・ハマりかけた部分について紹介します。

Elasticsearch ドメインのバージョンについて (Lab2 Section1 Step1)

2020年現在、Amazon Elasticsearch の latest バージョンは 7.9 です。 ハンズオン資料ではバージョンの指定をしないように説明されていますが、Kibana の UI 変更があったようでこの後の説明がわかりづらくなります。 したがって、ドメインバージョンには 7.7 を指定しましょう。

Amazon Elasticsearch Service へのストリーム作成方法 (Lab3 Section2 Step1)

ハンズオン資料では「CloudWatch ダッシュボードを以前のバージョンに切り替え」るよう案内がありますが、私の環境の場合旧バージョンへの切り替えが実施できない状態でした。 下記の手順で Elasticsearch 用のサブスクリプションフィルターを作成しましょう。

対象ロググループにチェックを入れた後、[ アクション ] をクリックし、[ Elasticsearch サブスクリプションフィルターを作成 ] をクリックします。

Amazon ES Cluster としてそれまでの手順で作成したクラスターを選択します。 また、サブスクリプションフィルター用の IAM ロール(※)を選択します。

※以前の UI と異なり、この画面から IAM ロールを自動作成できなくなっています。事前に Lambda 用の IAM ロールを作成した後、当該ロールに IAM ポリシー AmazonESFullAccess (AWS 管理ポリシー) を付与しておいてください。

サブスクリプションフィルターとして任意の名称を付与します。 その他のパラメータはいじる必要がないので、そのままダイアログに従いサブスクリプションフィルターを作成します。

Index の選択方法 (Lab3 Section2 Step2)

その右の Index を選ぶ箇所で「 cwl-* 」を選択します。

画像の赤枠部分をクリックすると作成済みの Index を選択できます。

先人たちのブログ

データレイクハンズオンでデータレイクを実感してみる

【AWS Data Lake】ニアリアルタイムデータ分析環境・スピードレイヤを構築してみた(ハンズオン1)

【AWS Data Lake】長期間のデータをバッチ分析する環境・バッチレイヤを構築してみた(ハンズオン2)

終わりに

このブログがほんの少しでも世界を良くできれば嬉しいです。
コンサルティング部の西野 (@xiyegen) がお送りしました。