本気で目指すGoogle Cloudを使ったデータの民主化 #devio2022
2022年7月19日〜29日に開催された技術カンファレンス「DevelopersIO 2022」にはたくさんの方にご参加いただきました。ありがとうございます。
だが、俺たちの夏はまだ終わらない!ということでビデオセッションのレポートです。
本エントリでは、Google Cloud梅川氏による「本気で目指すGoogle Cloudを使ったデータの民主化」についてご紹介いたします。
なお、DevelopersIO 2022イベントの全セッションはこちらからご覧いただけます。ライブ以外にも様々なビデオセッションがありますので、ぜひチェックしてください。
概要
Google Cloudは 大規模なデータ分析を行うプラットフォームと様々な可視化(BI)ツールを提供しています。Lookerやコネクテッドシート、BigQueryを利用するとなぜデータが民主化出来るのかをご紹介します。
登壇者
グーグル・クラウド・ジャパン合同会社
パートナーエンジニア
データアナリティクススペシャリスト
梅川真人
セッション動画(2022/08/15までの限定公開)
データ民主化の現状と課題
- 多くの企業がDXに全く取り組んでいないか限定的な取り組みに終わっています
- 近年の急激な環境の変化によって、DXの取り組み有無だけでなく対応のスピードも重要です
- データ民主化に向けた課題
- 部門ごとにデータ取得や計算手法が異なるので、指標や定義がバラバラでデータが信用できない
- セキュリティの観点からタイムリーなデータ共有ができない、公開範囲が限定的になってしまうなど効果が限定的
- 人材・スキル不足が原因でデータ活用までのリードタイムが長くなり、関係者のモチベーションが上げにくい
- データ民主化を実現する方法(Looker視点)
- 共通言語化...取得元や計算方法も含め指標、定義を共通言語化することで関係者間の認識の相違を排除
- 適切な公開範囲...機密度や必要な情報レベルに合わせたタイムリーでセキュアなデータを提供することでデータから得られる価値を最大化する
- わかりやすいキュレーション...データを1カ所にまとめることで、調べ、見つけ、使うという流れをスムーズに実現する
Lookerはデータプラットフォーム
Lookerは各種データベースに蓄積されたデータを可視化し、他のデジタルツールへのアクションに繋げる、あるいはデータを商品として考え外部に提供することで新たな価値を見出すことができる「データプラットフォーム」として設計されています
BIツールはデータプラットフォームとして提供している機能の一部です
LookMLによるデータの共通言語化
Lookerでは、LookMLというYAMLベースの言語を使用してデータの定義を一元化できます
- SQLを抽象化しLookerに情報を提供するデータベースとユーザの間にモデルレイヤを作成するもの
- Gitで構成管理できるので、チーム開発する際に承認フローを挟んで、データの定義が氾濫することを排除できます
LookMLの再利用可能な定義情報には、ViewファイルとModelファイルの2つがあります - Viewファイル…Lookerで取り扱う論理的なテーブル定義 - Modelファイル…テーブル間の結合ロジック
LookMLを使うことで「誰もが同じ場所、同じ手法、同じ定義でデータを取り出せる環境を提供し、データを共有言語化」することを支援します
柔軟な公開設定
集約したデータの機密性やセキュリティポリシーの観点からデータ連携や利活用が一部に制限されるユースケースがあります - 人事情報を活用したいが個人評価などは開示できない - 担当エリアのデータだけを開示したい - 外部公開したいがお客様ごとに作成するのが大変
Lookerでは3つのアクセス制御レベルを用意しており、LookMLとユーザの設定情報を組み合わせることで制御可能です - 行レベルフィルタ…ユーザの所属部署やエリアなどに合わせてレコード単位でフィルタを操作することで、データを探す手間と管理者がマートを分割する手間を削減 - 列レベルフィルタ…気密度の異なるデータやアクセス権を正しく設定することで、閲覧可能カラムを制御し、公開できるデータの種類を増やして利活用の幅を拡大 - 属性に合わせた取得元の変更…同じレポートにアクセスしてもユーザの属性に基づいて取得可能なデータを制限することで、外部公開を実現
わかりやすいキュレーション
BIツールにアクセスしなくても、普段から利用しているアプリケーションにLookerのダッシュボードを埋め込んだり、Slackからコマンドを実行してダッシュボードのデータを受け取る仕組みも構築できます
これにより、自然とデータを見る意識を醸成することができます
データに対して興味が出てきたユーザは、データディクショナリー利用して自分自身でデータを探索し、利用可能なデータ項目にどんなものがあるのか、データの種類、集計方法などを辞書形式で検索、確認することができます
LookMLダイアグラムを使用すれば、LookMLによってどのようなSQLクエリが発行され、どのようなテーブル構造を参照しているのか、テーブル同士の関係性や統計的な値の分布状況を知ることもできます
ユーザのレベルに合わせて様々な形でデータに関する情報を提供し、データ文化を醸成できるのがLookerの面白いところ
Smart Analytics Solution
ここからは、インフラレイヤーにおけるデータの民主化について説明します 従来の情報系データプラットフォーム/データウェアハウスの課題はデータのサイロ化にありました
サイロ化されたデータは部門やシステムごとに最適化されているため、データの統合をするために複雑な仕組みが必要で実現が困難でした
Google CloudのSmart Analyticsソリューションでは、いろいろなところに分散してしまったデータをリアルタイムかつシームレスに収集してデータを保持し、分析に関わるアクションを起こせるようにします
Google Cloudではこれらのデータ分析に関わるソリューションを揃えることでエンドツーエンドの分析を支援します
サイロ化を解決するソリューションとしてBigQueryを提供しています。
BigQueryとは
- エンタープライズ向けの分析用データウェアハウス
- エクサバイト規模のストレージとペタバイト規模のSQLクエリ
- セキュア、耐久性、メンテナンスフリー、インデックスチューニング不要
- 完全従量課金
- フルマネージドでサーバレス
- ストリーミングデータのリアルタイム分析
- MLとGISをビルトイン
- ハイスピードでインメモリのBIエンジン
コンピュートとストレージを完全に分離し、コンピュートあるいはストレージをそれぞれのワークロードが高負荷になったときスケールアウトすることができます
スモールスタートで始めて大規模まで対応することができます
コネクテッドシートでPB規模のデータを活用
フロントエンドとしてGoogle Spreadsheet、バックエンドにBigQueryを使用することで大量データを効率よく抽出・集計しつつも、ビジネスユーザにもなじみやすいアウトプットを実現します
仮に数PB規模のデータを保持していたとしても、バックエンドのBigQueryで集計することで大量データを効率的に処理することができます
BigQuery MLで機械学習を簡単に実行
BigQueryのデータに対して機械学習を行う場合、これまではデータをエクスポートしたうえでモデルを作成する必要がありました
BigQuery MLを利用することで、BigQueryからデータを移動することなく、SQLクエリだけを使ってMLタスクを作成することができます
大規模な地理空間分析とマッピング
PostGISをサポートすることで、緯度経度などの位置情報をもとにした可視化もできます
まとめ
このように、スキルセットに合わせたインターフェースを提供することで、すべてのユーザに分析環境を提供できるのがSmart Analytics Solutionの強みです
BigQueryには今日ご紹介したLookerやコネクテッドシートだけではなく、TableauやQlikViewなどのサードパーティツール、あるいは、Jupyter NotebookなどのOSSツールからも接続することができますので、より広範囲な分析環境を提供することができます
以上、ご清聴ありがとうございました