「Fivetran と Snowflake で Salesforce データ分析環境をお手軽構築」とテーマでお話をしました #devio2020

2020.06.19

はじめに

本日より、クラスメソッドの年次技術イベント「Developers.IO 2020 CONNECT」を開催しております!期間は2020年6月16日(火)から7月7日(火)、テーマごとに7日間の日程に分けて開催、セッションはなんと合計100本以上!

Developers.IO 2020 CONNECT

そして私は、2日のライブセッションの3本目を担当し「Fivetran と Snowflake で Salesforce データ分析環境をお手軽構築」というお話をさせていただきました。

クラウド型のデータパイプラインサービス「Fivetran」とクラウド型のDWH「Snowflake」をつかって Salesforce のデータ分析環境を簡単に作る方法ご紹介します。

登壇資料

動画

下記のYouTubeチャンネルの登録もお願いします。

Q&A

Fivetran (パイプライン)を入れない場合、データロストが懸念事項になるのでしょうか?

データロストを減らすために Fivetran を活用する、というわけではございません。Fivetran の役割は、各種データソースからデータを取得・加工して DWH にロードするプロセスを肩代わりして人的リソースをかけないことと、その開発にかかる時間を短縮することです。

SalesForce内のオブジェクト内データはどのようにしてS3にエクスポートされているのでしょうか?リアルタイムでエクスポートされていますか?

S3(Snowflake のステージ)を介さずにエクスポートします。

エクスポートする頻度は Fivetran 側で設定できます。

SnowFlakeのアーキティクチャを見るとRedshift の RA3 にとても似ていますが、RA3 と比べた場合のメリット・デメリットを教えて下さい。

おっしゃるとおり両者似ているアーキテクチャと思います。DWH の単体比較ではなく、周辺機能も含めて検討されるのがよいかもしれません。例えば、Redshift であれば ETL やデータカタログで Glue をつかっている場合に Snowflake より親和性が高いと考えます。一方で Snowflake であれば、ゼロクローンやタイムトラベル、データシェアといった Snowflake 特有の機能が使えます。

アインシュタインを採用しなかった理由はなんですか?

Einstein Analytics Outbound Connector という Salesforce 内のデータを Snowflake に連携できるコネクタが今後リリースされて(今年の後半あたりの予定)、自動で Snowflake にデータが入れて最新のデータを分析できるようです。

Salesforce 単体のデータにおいてはこれで置き換わるのかもしれません。私がユースケースで挙げたような Zendesk や Pardot といった複数データソースの活用の観点では Fivetran が役立つと考えます。

ストレージを1TBの試算とのことですが、過去データをS3に格納とかイメージできるものでしょうか?

今回は Salesforce のデータを持ってきていますが、初回は Fivetran 側で選択したデータ(テーブルやカラム)をすべてロードします。その後は変更されたデータのみ更新をします。

さいごに

SaaS サービスの組み合わせで分析環境が数時間で用意できます。Snowflake は30日、Fivetran は14日のトライアルが用意されていますので、ご興味のある方はぜひお試しください。

本内容がデータ活用を進める方のお役に立つと幸いです。

参考情報