[レポート]Scaling data-driven insights across a complex global organization with Looker and BigQuery #GoogleCloudNext

Man on the Silver Mountainは名曲

「カスタマーストーリー」を支えるツール特集モダンデータスタック(MDS)

ビッグデータビジネス・アナリティクスビジネス Looker Google BigQuery

たまちゃん

2020.08.25

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

大阪オフィス所属だが現在は奈良県でリモートワーク中の玉井です。

現在、2020年7月14日から9月8日までの数週間にわたってGoogle Cloudのデジタルイベント『Google Cloud Next '20: OnAir』が開催されています。

このイベントでは、2020年7月14日から毎週、異なるテーマで様々なセッションや催しのコンテンツが公開されています。(コンテンツは PDT[米国太平洋標準時(夏時間)]での火曜日午前9時→JST[日本時間]の水曜午前1時に配信される形になっています)

[2020/07/14〜] Industry Insights
[2020/07/21〜] Productivity & Collaboration
[2020/07/28〜] Infrastructure
[2020/08/04〜] Security
[2020/08/11〜] Data Analytics
[2020/08/18〜] Data Management & Databases
[2020/08/25〜] Application & Modernization
[2020/09/01〜] Cloud AI
[2020/09/08〜] Business Application & Platform

当エントリでは、その中から「Data Analytics」のセッションとして公開された『Scaling data-driven insights across a complex global organization with Looker and BigQuery』の内容について紹介していきたいと思います。

セッション概要

公式ページで紹介されているセッションの概要情報は以下の通り。

Title(タイトル)：
Scaling data-driven insights across a complex global organization with Looker and BigQuery

Speakers(講演者):
Jarrett Garcia(Director, Enterprise Data Platform,Iron Mountain
Harish Kuram(Principal Data Engineer SpringML Inc)

Description(説明):
In this session SpringML and Iron Mountain share how migrating data to Google Cloud not only saved hundreds of thousands of dollars in licensing consolidation but allows stakeholders across a complex global organization to:
- Consolidate 1,200 data management applications into one data lake
- Unify information governance practices across disparate corporate verticals and departments
- Provide a single view of operational and customer data for enhanced decision making across 43 countries and 200 acquisitions
- Unlock the power of data science and predictive analytics Standardizing across varying systems and processes onto one platform took just a matter of weeks for a project that could have taken about a year. SpringML and Iron Mountain share how this was done, lessons learned and next steps for their collaboration adopting Looker and BigQuery into Iron Mountain.
（このセッションでは、SpringMLとIron Mountainが、データをGoogle Cloudに移行し、ライセンスを統合して何十万ドルものコストを削減しただけでなく、複雑なグローバル組織の利害関係者がどのようにして以下のことを実現したかを共有します。
- 1,200のデータ管理アプリケーションを1つのデータレイクに統合
- 異なる企業の業種・部門間で情報ガバナンスを統一
- 43カ国、200件の買収に対応した意思決定を強化するために、業務データと顧客データを単一のビューで提供 - データサイエンスと予測分析のパワーを解き放ち、様々なシステムやプロセスを1つのプラットフォームに標準化することで、約1年かかっていたプロジェクトがわずか数週間で完了。
SpringMLとIron Mountainは、LookerとBigQueryをIron Mountainに採用したコラボレーションについて、どのようにしてこれを実現したか、学んだ教訓と次のステップを共有します。

セッションレポート

はじめに

セッションのメインどころ
- Iron Moutain社のデータ分析及び可視化の基盤構築プロジェクトについて
- 使用したサービスについて（GCPやLookerなど）
- Iron Moutain社がプロジェクトを通して経験した課題と価値

登壇者の自己紹介

Harish氏
- Spring ML社のプリンパルデータアーキテクト
- 大企業案件を25年くらいやっている
- Iron Maoutain社の案件のプロジェクトマネージャーを担当
Jarret氏
- Iron Mountain社のエンタープライズプラットフォーム担当ディレクター
- 昨年の12月に入社

プロジェクトの参加組織

Iron Mountain社のプロジェクトに対して、2社が参画した
- SpringML社
  - スプリント計画の管理と実装など
- Google Cloud社のPSO
  - プロダクトのアーキテクチャに関する相談など
  - エンタープライズ企業のベストプラクティス | ドキュメント | Google Cloud
Iron Mountain社は案件のリーダーシップを担当

Iron Mountain社について

ストレージと情報管理サービスを扱う企業
世界50カ国に展開
あまりここで時間を費やすつもりはないということで、早々に次のスライドへ

プロジェクトの目的〜データ分析基盤について

Iron Mountain社には複数のシステムがあり、各国と連携している
- 国毎に異なる方法で動作
会社全体を俯瞰的に見ることができないのが経営陣にとっての大きな頭痛の種
- 特定の顧客のフットプリントを見たいだけで数週間かかることも
- 全ての情報を集約して顧客に提示するためにも数週間かかる
データを一元化するためにグローバルなデータ分析基盤の構築が必要になった
さらに、さまざまなダッシュボードを作成し、リーダーがグローバルな視点を持てるようにするためのインサイトを得られるようにしたかった

基盤に必要な要件について考える

テクノロジーについて
- もともとGCPを愛用していた
- BigQueryは自分たちにとって最適なプラットフォームだと感じていた
データのガバナンス
- Data Stewardshipをやりたい
  - Data steward - Wikipedia
- 全従業員が簡単にデータを利用できるようにしたい
- データの保護についても考える必要がある
文化
- 会社自体がこういうデータ分析の文化に慣れていない
- 会社全体にデータ分析の考え方を示す
- これはすぐに実現できる

基盤の構築後

先に完成後の話をする
- プロジェクト詳細は後でHarish氏が説明する
プロジェクトは成功した
- まだ稼働して半年しか経っていない
この基盤には56カ国分のデータが流れ込んでいる
- 5TB
様々なユースケースにも対応可能
- データ管理の面からビジネスを支援
- プロジェクト管理や人事部のデータにも対応

SpringML社について

Google Cloudのプレミアムパートナー
200以上のクラウドデータ分析やビジュアライゼーションの実装を提供してきた

4つの分野で強み

GCPの認定（おそらく企業単位のやつ）もいくつか所持

Iron Mountain社プロジェクトの技術概要

求められていた要件や課題
- 記録センターの生産性をモニタリングする
- 国や業務システムをまたいだ活動定義の構築に一貫性を持たせる
- 施設やビル単位のデータを可視化する
- 複数の拠点や地域・国のリーダーが明確に把握できていないため対応が必要
- ほとんどがファイルベースのプロセスでありファイル転送に関連した課題あり
- 地区の建物や活動の参照データの定義に関連した課題あり
- ビジネスから提供された参照データを手動でチェックするのに時間がかかっている
- レポートは、ビジネスオブジェクトを介して提供されるCrystal Reportsで定義されている

SpringML社が設計した基盤のアーキテクチャ
- 複数のデータソースから抽出したデータをGoogle Cloud Storageにアップロードするためのオンプレミス仮想マシン
- Google Cloudのcomposerタグの呼び出しをベースにしたファイルのアップロードイベント
- DAGによるSQL変換の呼び出しによるBigQueryステージングテーブルへのデータのアップロード
- DAGによるBigQueryレポーティングデータセットへのマージ
- Looker上に構築したSEOレポートダッシュボード

スケーラビリティの原則

この基盤のアーキテクチャには、以下のような多数のスケーラビリティの原則が含まれている
- サーバーレスのデータウェアハウスをオンデマンドで使用/成長させるセットアップ
- メトリック駆動のオートスケーリングノードの提案
- イベント駆動型のデータ取込パターン
- 将来的にはメッセージ駆動型のPub/Subに移行することを中心に議論した
- Cloud Pub/Sub | Google Cloud
これらの原則はBigQueryによって実現している

使用したGCPのサービス

Cloud Composer | Google Cloud
- ワークフローのオーケストレーションを行う
- ファイルをテーブルにロードする、クエリを実行するなど
BigQuery: クラウドデータウェアハウス | Google Cloud
Cloud Storage | Google Cloud
運用: Cloud Monitoring と Logging | Google Cloud
- データ取込の監視やアラートをログに記録する
ビジネスインテリジェンス（BI）＆データ分析プラットフォーム

Lookerがもたらした価値

2～3週間でインサイトを迅速に提供し、リアルタイムな分析が可能になった
データアクセスを制限して特定の列をマスキングしたり、監査を行ったりすることで、データのガバナンスと整合性を実現できた
セルフサービス機能を利用することで、ビジネスアナリストはすぐに利用可能なデータについて新しい分析をすることができるようになった
Iron Mountain社のオペレーションで問題のある指標をトラブルシューティングできるようになった
Looker自身がIron Mountain社のGCP環境をフル活用している
- Lookerがクエリを実行するのはすべてBigQuery

Iron Mountain社のために開発した中央オペレーションの記録ダッシュボード
いくつかのビルで高い残業時間が報告されている理由…などの追加の分析ができる

データ分析基盤を開発する上での推奨事項

データフォーマットの構造とビジネスロジックを事前に合意して手戻りを最小限に抑える
DevOps
- Terraformで自動デプロイ
- 効率的なコードデプロイメントのためにCI/CD環境を構築
データソースに近い上流側でデータのクレンジングを行うことで、コーディングロジックの複雑さを最小限に抑える
アーキテクチャを常に見直し、最適化する
- Cloud Dataflowを使用する案が出たが、当案件に必要なデータ変換に対してオーバーすぎると判断
- Dataflow | Google Cloud
- 並行処理が必要な要件もなかったため、bq loadで対応することに決定
- Cloud Storage からの CSV データの読み込み | BigQuery | Google Cloud

プロジェクトの成果

BigQueryにデータを取り込んでデータ分析をPoCを成功させた
データの民主化を通じたエンタープライズデータウェアハウスの近代化とレポーティングを可能した
Iron Mountain社の様々なツールやデータセットのコピーを削減した
将来のデータ取り込みおよび可視化プロジェクトのためのインフラのベースラインを確立した

おわりに

GCPとLookerを使用したデータ分析基盤の開発事例でした。

ぶっちゃけると、この事例に関しては「Tableauでもいいやん」と思いましたが、Googleのイベントだし、LookerはGCPファミリーだし、ということでしょうがなくはあります。

データ分析基盤を開発するという観点でみると、私が所属している部署は、これのAWS版をやっているようなものですので、色々参考になりました。

あと、さり気なくデータカタログの部分でIMMUTAが使われているのも要チェックですね。

Google Cloud Next ’20: OnAir ｜シリーズ｜ Developers.IO