Amazon Kinesis Data FirehoseからS3にロードされたデータをFivetranを使ってSnowflakeに連携する

ファイホをファイトラでアナリティクる

「カスタマーストーリー」を支えるツール特集モダンデータスタック(MDS)

たまちゃん

2020.08.05

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

奈良県でリモートワーク中の玉井です。

FivetranはSalesforceやZendeskといったSaaSの半構造化データを、DWH等に構造化データとして自動変換・連携できる便利なサービスです。実は、SaaS以外にも連携できるサービスはまだまだあって、今回はAmazon Kinesis Data FirehoseでS3にロードしたデータをSnowflakeに連携してみます。

FivetranとFirehoseの連携について

何らかのアプリケーションで発生したデータを都度処理する…という要件は非常に多いと思います。で、それらのデータをDWHに溜めて分析したいという要件も、これまた多いです。で、そういう要件にあった基盤の構成は色々あり、AWSを使う場合は、Kinesisファミリー（？）を使った構成が多いと思います。

その中の選択肢の1つとして、Fivetranを使うというものがあります。下記のようなイメージです。

本記事では上記（のDWHに入れるまで）を実際にやってみました。

やってみた（セットアップ編）

公式情報

前提条件

Amazon Kinesis Data Firehoseの配信ストリームの作成が完了している
- S3にストリーミングデータが格納される状態
S3に格納されるデータの形式がJSONである
- FivetranとFirehoseを連携させる条件の1つ
- 今回はFirehoseのサンプルデータを使用
FivetranのDestinationの設定が完了している
- 今回はSnowflakeをセットアップ済

Fivetran側の作業

External IDを確認する

まずConnectorから（Kinesisではなく）「S3」のメニューを開きます。

設定の画面に遷移しますが、実際にS3をConnectorとして登録する必要はありません。ここでの目的はExternal IDの確認です。後々使用するので、メモったらこの画面は閉じます。

AWS側の作業

基本的にはFivetranがS3（Kinesisからのデータが格納されるバケット）に対してアクセスできるように設定するのがメインです。

Fivetran用のIAMポリシーの作成

マネジメントコンソールにログインして、ポリシーの作成画面に移動します。

下記のポリシーをJSONタブにペーストします（バケット名は自分の環境に合わせます）。

{
"Version": "2012-10-17",
"Statement": [
    {
      "Effect": "Allow",
      "Action": [
"s3:Get*",
"s3:List*"
      ],
      "Resource": "arn:aws:s3:::{your-bucket-name}/*"
    },
    {
      "Effect": "Allow",
      "Action": [
"s3:Get*",
"s3:List*"
      ],
      "Resource": "arn:aws:s3:::{your-bucket-name}"
    }
  ]
}