Github の利用データを Fivetran と Snowflake に連携する方法
(For English version click here)
はじめに:
Fivetran ではクラウドコンピューティングの体験を向上させるために多種なコネクターの提供に取り組んでいます。この記事では、Github コネクターについて詳しくご説明いたします。以下の図のように Github は Fivetran と連携して既存のデータが最終的に Snowflake にて取得することが出来ます。
Github の利用者データではコミット、ユーザー、プルリクエストなどの情報は取得することが出来ます。スキーマに詳しくはこちらからご覧ください。
ご利用の方法:
最初は、Fivetran と Snowflake を登録して連携します。詳しくはこちらから確認して下さい、Snowflake 初期セットアップガイド(英語版).
次は、Github を登録する為に Fivetran の操作画面から以下のように “Add Connector” ボタンをクリックし、現れる画面より ”Github” 言葉で検索し Github コネクターにクリックします。
次は、必要になるターゲットのスキーマ名を登録し “Authorize” ボタンをクリックします。
次に現れる画面では Github へのアクセスを承認する。ここはインポートするデータの特徴が確認出来ます。
次の画面では、パスワードやログイン名を入力します。
承認が成功したことが検証されたら接続が完了とします。次は詳細な設定になり以下のような画面が現れます。ここで “Sync All Repositories” すると全てのレポジトリを同期し “Sync Specific Repositories” を選ぶと許可されたレポジトリのみが同期することが出来ます。
同期する内容が決まり次第、“Save & Test” ボタンをクリックすると Github コネクターへの接続が完了となります。
ステータスページではコネクターに関する情報が現れます。ここで “Start Initial Sync” をクリックすると Github の初期同期をはじめます。
同期が完了しましたら Snowflake の操作を行いコネクターが確認します。SQL クエリを実行すればデータの読み込みが完成したことを確認出来ます。
お好みなダウンストリームのデータ処理がここから行えます。Fivetran は ELT 方法で動きますので、データを抽出しウェアハウスへ一旦保存します、その後は 編集作業行える仕組みです。
最後に:
Github と Fivetran をつなげて Snowflake で次の処理することが出来ます。