[レポート] VOC分析を支えるデータ基盤とモダンデータスタックの取り組み – DeNATechCon2023 #データ基盤 #BigQuery #Looker
日本時間2023年03月02日(木)、オンライン形式で株式会社ディー・エヌ・エーによるテックカンファレンスイベント「DeNATechCon2023」が開催されました。
当エントリはその中のセッションでモダンデータスタック(MDS)に関して「VOC分析を支えるデータ基盤とモダンデータスタックの取り組み」という興味深いセッションが発表されていましたので視聴レポートをお届けしたいと思います。
セッション概要
当エントリで扱うレポートのセッション概要は以下の通りです。
VOC分析を支えるデータ基盤とモダンデータスタックの取り組み
[登壇者]
・深瀬 充範氏
[概要]
DeNAのカスタマーサポートやマーケティング業務では、数多くのサービスに対する反響の分析やリスク管理などを目的に、日々蓄積されるDeNAのあらゆるサービスのユーザーのご意見やレビューデータなど活用したVOC(Voice Of Customer)分析およびソーシャルリスニングが積極的に行われています。
これらデータの活用を進めるためGoogle Cloudでデータ基盤を構築・提供してきましたが、ツール保守などの運用コスト面やデータ品質の課題などが顕著となってきました。
そこで、データエンジニアリング界隈でトレンドとなっているモダンデータスタックに着目しつつ、どう課題を解決してきたか、また現在どういったことに取り組んでいるかをご紹介します。
セッションレポート
自己紹介
- データ本部データ基盤部@DeNAにてデータエンジニア/データアーキテクト/エンジニアリングマネージャー
- DeNAデータエンジニア組織について
VOC分析を支えるデータ基盤の紹介
VOC分析について
- VOC = Voice of Customerの略。ご意見やお問い合わせ等の「ユーザーの声」を分析することでサービス品質向上・改善施策などに利用
- DeNAにおけるビジネス上の課題として、このVOCにおける多くの作業工数の発生、またデータ増加によって重要なお客様の声が見えづらくなるという点が挙がっていた
- これらを改善すべくカスタマーサポートとの協力体制の立ち上げ、VOC分析データ利活用プロジェクトが始まる
- VOCデータ収集基盤構築〜Lookerを駆使した分析ダッシュボード提供まで一気通貫して推進
現在のデータアーキテクチャと取り組みの紹介
- 現在のアーキテクチャ:
-
- それぞれの基盤環境で独自のETLツールを開発・展開
- 実行環境としてはCloud Workflow等を用い、Google Cloudのフルマネージドサービスを活用する形で構成
-
- Lookerによるダッシュボードの提供
- 2019年よりLooker導入・浸透の活動を実施
- ビジネスニーズに対応したご意見・お問い合わせ分析の定形ダッシュボードをLookerで構築
- イベントカレンダーとの連携
- ユーザー属性情報の可視化
- 併せて、サービス分析やマーケティングでの活用のためにソーシャルリスニング機能も提供
- Google、Appleといったアプリストア情報のレビュー情報の活用
- SNSデータを用いた反響分析
- Lookerの活用事例としてRemote Dependencyを利用したモデルの共通化も行った
- また、自然言語処理データの提供についても実施
- 自然言語処理APIを活用したポジネガ分析・形態素解析による分析ダッシュボードも提供
- 課題として、ソーシャルリスニングの需要増により取り扱うデータ量に比例してコストが膨らみ始めた
運用上の課題
- ETLツールの運用コスト増加
- ETLツールの収集/変換/格納のステップに対する改修のために、ツール全体の改修が発生していた
- データの再取得・テーブル再生成などの運用コストが増大
- 【→モダンデータスタックの活用:ETLパイプラインの導入・運用保守の簡易化へ】
- データ品質・データガバナンス上の課題
- データ欠損、想定外データの混入など、ユーザーが申告した時点で気付くケースあ多くデータ品質上の課題を残していた
- プロジェクト増加に比例して「承認済みビュー」の所在、利用可否の状況が管理出来なくなっていた
- 【→モダンデータスタックの活用:データ品質チェックの強化】
- 【→Analytics Hubの導入】
データ基盤の課題を解決するためのモダンデータスタックの取り組み
新たなデータアーキテクチャ構想
- モダンデータスタックの活用:モダンデータスタックとは?
- モダンデータスタックを取り入れた新データアーキテクチャ構想
- データ収集の実行基盤をAirbyteに集約
- データ変換部分をdbtが担う構成に変更
- 収集データの参照・可視化に関しては従来のような承認済みビューを用いるのでは無く、Google CloudのサービスであるAnalyitcs Hubを使い、全体的に疎結合な形を目指している
Airbyte/dbtによるELTパイプライン
- ETLツール中心から、ETLパイプラインへシフト
- どうしてETLなのか?
- あらゆる種類のデータを格納できるクラウドストレージとの相性が非常に良かった
- Google CloudではBigQuqey/Cloud Storageが主流
- 収集したデータの仕様変更・スキーマへの柔軟な対応が可能
- ETLパイプラインを実現するためにモダンデータスタックと呼ばれるAirbyte&dbtを導入する方針へ
- あらゆる種類のデータを格納できるクラウドストレージとの相性が非常に良かった
- Airbyte, dbtでの検証
- いずれもOSS版、SaaS版が存在しており、手元での検証が容易に行えるのは大きい
- Airbyte(OSS):Airbyte Open Source | The leading open-source ELT solution
- Aitbyte(SaaS):Airbyte Cloud | All the details about the offer
- dbt(OSS):Building an Open Source Data Stack
- dbt(SaaS):What is dbt?
- Airbyte & dbtによるELTパイプラインの簡易的実現
- データの挙動について
- データ変換に特化したサービス:dbtについて
- 変換モデルをSQLで定義できるので既存パイプラインからの移植性が高い
- ref関数を使ったモデル定義で依存関係を解釈もできる
- データ品質チェック機能も利用可能
- 従来は個別にSQLチェックが必要だったが、dbtであればYAMLで定義するだけで簡単に導入可能
- ETLパイプラインでの懸念点と対策
- VOCデータは個人情報を含む場合が多く、データの取り扱いをETLより強く意識する必要がある
- 生データに対する匿名加工処理の必要性も生じる可能性があるため、事前のパイプライン設計が必要
- 意図せず個人情報を共有しないように、dbtのデータ変換に加えてCloud DLPを活用したリスク検出も準備
- 個人情報に関わるデータを扱う必要が生じる場合、ポリシータグを用いて動的にデータマスキングを設定
- Google CloudプロジェクトレベルではLoggingによるセキュリティアラートを設置している
- VOCデータは個人情報を含む場合が多く、データの取り扱いをETLより強く意識する必要がある
Analytics Hubの活用
- 組織やプロジェクト間で効率的にBigQueryデータセットを共有するためのデータシェアリングサービス
- Analytics Hubの機能紹介
- Analytics Hub | データ交換とデータ共有 | Google Cloud
- データ提供側(データプロバイダー)=パブリッシャー
- データ利用側(データコンシューマー)=サブスクライバー
- Analytics Hub活用のメリット
- データガバナンスをより効かせられる
- Analytics Hubを利用したデータ購読を基本方針へ整備
- セキュリティの担保も可能
- 運用・コスト面の効率化
- データ提供のプロセスを簡略化
- 従来のビュー提供と変わらないコスト体系
- VOC分析用のデータプロバイダーとして複数プロジェクトへデータ提供を行うため、Analytics Hubとの相性が非常に高いと判断、積極的に導入を進めている
- データガバナンスをより効かせられる
総括
- VOC分析のデータ基盤はあらゆるサービス・プロダクトに関わっている
- 独自ツールからモダンデータスタックへシフトし、運用コストを抑制させる
まとめ
という訳で、 DeNATechCon2023におけるMDSセッション「VOC分析を支えるデータ基盤とモダンデータスタックの取り組み」のレポートでした。このセッションを聴講して、「Airbyte&dbt」という組み合わせは非常に面白そうな組み合わせだなと思いました。それぞれのサービスも、またそれぞれのサービスを連動させた使い方も是非色々試してみたいなと思った次第です。