[レポート] Fivetran x BigQuery x dbt で実現する”モダン データスタック”の概要と導入事例 #GoogleCloudDay
2023年05月23日(火)〜25日(木)の3日間に渡って行われている『Google Cloud Day ’23 Tour』。
当エントリでは、23日に行われたセッション「Fivetran x BigQuery x dbt で実現する"モダン データスタック"の概要と導入事例」の内容をレポートします。
セッション概要
当セッションの概要情報は以下の通りです。
Fivetran x BigQuery x dbt で実現する"モダン データスタック"の概要と導入事例
登壇者:
瀬沼 裕樹氏(株式会社CloudFit 代表取締役)
林 祥子氏(Fivetran Inc. 営業 アカウント・エグゼクティブ)
セッション概要:
データ領域でトレンドになりつつある"モダン データスタック"。クラウド ネイティブな技術を利用することで、導入・運用コストを下げて、効率的にデータ活用を実現することができます。
本セミナーでは、Fivetran、BigQuery、dbt といったモダン データスタックを代表するサービスの概要や具体的な導入・活用事例をご紹介します。
セッションレポート
はじめに
- 自己紹介(林祥子氏)
- 日本人初のFivetran営業として2022年07月に入社
- Fivetranのミッション:データへのアクセスを電気のようにシンプルかつ信頼出来るものにすること
- グローバルで6500社超、国内では60社以上の利用。日本で急成長を遂げている
- なぜ今「モダンデータスタック」なのか?
1. なぜ今モダンデータスタックなのか
- モダンデータスタック:クラウド上で複数のSaaSで構成されたデータ分析基盤
- 旧来のプロセス
- アプリケーションもDWHも全てオンプレミス、社内にて手作業による管理
- データの収集/クリーニング/モデリング/検証を経ることで始めてデータをDWHに取り込める
- データパイプラインは自分達で維持しなければならない
- 「データが常に流れていること」の確認は手動で行う必要がある(平均すると40%をこの作業に費やしているという数字が出ているらしい)
- 定形レポーティング作業
- 閲覧者はマネージメント層に限定される
- モダンデータスタックが提供する新しい世界
- 1企業は何十何百というデータソースを抱えることが可能
- 無限二収縮するモダンなDWH
- クラウド上にDWHを置くことで、スケーラビリティも全て自動化、結果様々なケースでの利用が可能となる
- より多くの社内外のユーザーに使われることが期待出来る
- ETLからELTへのシフト
2. ETL vs ELT
- なぜ「T」が動いたのか?
- 旧来の世界ではストレージコストとコンピュートリソースが非常に高いので、必然的にレポート間隔は毎月もしくは四半期といったスパンで運用
- そのため、抽出(Extract)と加工(Transform)についてはコストを下げるために、密に繋がっている必要があった
- データのロードに関してはスキーマレイアウトやデータタイプの互換性に合わせて手動対応を行う形だった
- 更に様々な制約
- 全てのパイプラインはニーズに合わせてカスタムメイド、時間も掛かる
- 新しいデータソースやデータモデルを追加するのが煩雑、困難
- 状況の変化に伴うメンテナンスコスト
3. Fivetranが選ばれる理由
- 昨今のクラウドサービスの拡大に伴い、データの保存が安価で済むようになりそのままローデータを抽出しDWHにロードする事が可能となった
- データ格納後にDWH上で加工や変換を行うことが可能となった(すなわち"ELT"が可能となった)
- ELTを使って前出のユーザー課題を解決するサービスが「Fivetran」。以下の特徴を備える
- フルマネージドのデータパイプラインサービス
- メンテナンス、コーディング不要
- 300以上のネイティブコネクタ
- 事前定義済みのスキーマ
- 5分でセットアップ、24時間365日のサポート体制
- Fivetranが選ばれる理由
- 320名以上のエンジニアによるお客様パイプライン管理体制
- 99.97%のプラットフォーム稼働率
- 2192.8TBの月間異動データ量(の実績)
- 2022年データインテグレーションパートナーを受賞
- 業界トップのコネクタ数
- 5分で追加出来る、あらゆるチームに対応した数百ものコネクタを利用可能
4. Fivetran x BigQuery x dbtの連携
- 上記のような機能を活用することで、多種多様なソースからBigQuery環境への「データの抽出とロード」を可能となる。
- BigQueryに投入したデータの変換は、非常に簡単で扱い易い(SQLによる)データ変換ツールの「dbt」を使うことでビジネスニーズに合わせてアジャイルにデータを最適化出来る
- Fivetranはdbtとネイティブ連携対応可能。プレビルドのパッケージを無料で公開しており速やかに利用可能。またお客様独自で作成したdbtモデリング処理をFivetranでスケジュール実行させる事も可能。
5. 導入・活用のポイント
ここからは登壇者が瀬沼裕樹氏に変わりました。
- 自己紹介(瀬沼裕樹氏)
- 2020年04月CloudFitを創業、代表取締役に就任
- 導入活用のポイントは大きく3点。
- 01.データ統合
- データ分析及びデータ活用の品質を高めるためには、異なるデータソースから収集されたデータを横断的に分析が可能な、所謂「データマート」に変換する必要がある
- Fivetranで収集したデータに対し、dbtでデータ統合を行う
- 例:各種広告媒体データ(Google,Facebook, Yahoo等)を1つのデータマートに集約
- dbt transformationでFivetranとdbtを連携させることで、シームレスにデータの収集や統合を行う事が出来、結果としてトリガー等の不要な開発を削減可能に
- 02.推進体制
- 抱えていた課題
- 業務部門側のデータリテラシーの低さによるデータ活用アイデア不足
- システム部門の工数不足によるデータ抽出・分析の対応の遅さ
- データ環境や組織づくりの優先度が低く、予算がすくない→整備が進まない
- 推進体制の作り方
- プロジェクト型
- [◯]異動と比較して組成のハードルが低い
- [×]主務との兼ね合いで進捗が滞る可能性
- 部門新設型
- [◯]工数確保がしやすい
- [※]部門横断での取り組みに理解のあるメンバーのアサインが必須
- 業務部門主導型
- [◯]業務でのデータ活用検討がスムーズ
- [×]データの技術的な考慮が不足する可能性
- プロジェクト型
- 推進体制
- 組織体制に加えて、モダンデータスタックの構築・運用やデータ分析をリードする人材の採用が育成が必要
- データアナリスト(KPI設計/SQL/BI/スプレッドシート)
- データエンジニア(データベース/API/プログラミング)
- 抱えていた課題
- 03.カルチャー
- 全社でデータ活用が推進出来ている企業は全体の20%にとどまる(ガートナー調べ)
- データ活用が定着しない3つの主な要因
- 業務部門がBI等のデータ環境を利用せず、Excelを使い続けている
- 初期導入時に構築されたダッシュボードからメンテナンスがされていない
- 経営層やマネージャーの意思決定がデータに基づいたものではない
- カルチャーのミスマッチ、データ活用の"失敗"を避けるための心得
- 早いタイミングで現場を巻き込み、仲間を作っていく
- 「Small Start, Quick Win」を意識した推進
- 「数字で語る」文化を醸成
- カルチャーは常に変化してくことを前提に置く。拡張性や柔軟性が高いデータマネジメントが可能な仕組みを構築していく。
- 01.データ統合
6. モダンデータスタックの導入事例
- Case1:Salesforceのデータ活用
- 営業活動の生産性向上が目的
- Salesforceのデータ基盤としてモダンデータスタックを採用
- 工数削減とデータ分析に費やす時間が増えたことにより成約数が137%向上
- KPI可視化とデータ分析の結果をSalesforceに反映することで営業現場でのデータ活用を実現
- このような仕組みを従来のレガシーな環境で作ろうとするとどうしても開発や運用に時間やコストがが掛かる(場合によっては1年単位で)。モダンデータスタックを使うことで数ヶ月で環境を用意出来、データ分析に注力する時間を確保することが出来た。時間の掛け方が変わった。
- Fivetranが提供している「Quickstart Data Models」(定義済みのデータ変換処理)を用いることで、SQL開発無しで即時に分析用のデータマートを構築することが可能になった。
- Case2:店舗とECを横断した事業モニタリング
- Spotifyで構築されたECサイトと店舗を横断した事業分析を行うためのモニタリング基盤を構築
- 顧客・商品・注文等の切り口を変えた柔軟な分析に耐えられる分析環境を実現
- データ集計やデータ抽出作業等のデータ業務を大幅に効率化
- モダンデータスタックの仕組みを使うと、この規模の構成もクイックにローコストで作ることが出来る。
- dbtのメリットとして、こうしたEC系や店舗系のデータでRFM分析をしたい!となった場合、RFMの最新の断面を見たいケースもあれば、過去の履歴を見たかったり、ユーザーの切り口で見たいという要望が挙がることも多いと思う。データ基盤側の柔軟性がないと指標1つ1つを作るのにも大変。dbtのようなものを入れておけばスムーズかつ柔軟にこの辺り対応が可能となる。
7. サマリ
- モダンデータスタックで期待できる効果
- データインフラや運用コストが削減出来る
- ビジネスの変化に柔軟に対応出来るデータ環境が構築出来る
- データドリブンな分析・組織へのハードルが下がる
- モダンデータスタックをきっかけにデータドリブンな組織を目指しましょう!
まとめ
という訳で、『Google Cloud Day ’23 Tour』のセッション「Fivetran x BigQuery x dbt で実現する"モダン データスタック"の概要と導入事例」の聴講レポートでした。
従来の構成で組み上げるものと比較して、モダンデータスタックの枠組みでデータ分析基盤を構築することの利点が多く感じられるセッション内容でした。サービス毎に「構築や運用をスムーズに行うことの出来る機能や仕組み」が用意されているのも、利用のハードルを下げることに貢献しているのではと思いました。興味のある方は是非試してみてください。