Github の利用データを Fivetran と Snowflake に連携する方法

2021.04.19

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

(For English version click here)

はじめに:

Fivetran ではクラウドコンピューティングの体験を向上させるために多種なコネクターの提供に取り組んでいます。この記事では、Github コネクターについて詳しくご説明いたします。以下の図のように Github は Fivetran と連携して既存のデータが最終的に Snowflake にて取得することが出来ます。

Github の利用者データではコミット、ユーザー、プルリクエストなどの情報は取得することが出来ます。スキーマに詳しくはこちらからご覧ください

ご利用の方法:

最初は、Fivetran と Snowflake を登録して連携します。詳しくはこちらから確認して下さい、Snowflake 初期セットアップガイド(英語版).

次は、Github を登録する為に Fivetran の操作画面から以下のように “Add Connector” ボタンをクリックし、現れる画面より ”Github” 言葉で検索し Github コネクターにクリックします。

次は、必要になるターゲットのスキーマ名を登録し “Authorize” ボタンをクリックします。

次に現れる画面では Github へのアクセスを承認する。ここはインポートするデータの特徴が確認出来ます。

次の画面では、パスワードやログイン名を入力します。

承認が成功したことが検証されたら接続が完了とします。次は詳細な設定になり以下のような画面が現れます。ここで “Sync All Repositories” すると全てのレポジトリを同期し “Sync Specific Repositories” を選ぶと許可されたレポジトリのみが同期することが出来ます。

同期する内容が決まり次第、“Save & Test” ボタンをクリックすると Github コネクターへの接続が完了となります。

ステータスページではコネクターに関する情報が現れます。ここで “Start Initial Sync” をクリックすると Github の初期同期をはじめます。

同期が完了しましたら Snowflake の操作を行いコネクターが確認します。SQL クエリを実行すればデータの読み込みが完成したことを確認出来ます。

お好みなダウンストリームのデータ処理がここから行えます。Fivetran は ELT 方法で動きますので、データを抽出しウェアハウスへ一旦保存します、その後は 編集作業行える仕組みです。

最後に:

Github と Fivetran をつなげて Snowflake で次の処理することが出来ます。