[レポート]Data driven responses to COVID-19 using Looker and BigQuery #GoogleCloudNext

データを制する者は新型コロナウィルスも制す?
2020.08.13

大阪オフィス所属だが現在は奈良県でリモートワーク中の玉井です。

現在、2020年7月14日から9月8日までの数週間にわたってGoogle Cloudのデジタルイベント『Google Cloud Next '20: OnAir』が開催されています。

このイベントでは、2020年7月14日から毎週、異なるテーマで様々なセッションや催しのコンテンツが公開されています。(コンテンツは PDT[米国太平洋標準時(夏時間)]での火曜日午前9時→JST[日本時間]の水曜午前1時に配信される形になっています)

  1. [2020/07/14〜] Industry Insights
  2. [2020/07/21〜] Productivity & Collaboration
  3. [2020/07/28〜] Infrastructure
  4. [2020/08/04〜] Security
  5. [2020/08/11〜] Data Analytics
  6. [2020/08/18〜] Data Management & Databases
  7. [2020/08/25〜] Application & Modernization
  8. [2020/09/01〜] Cloud AI
  9. [2020/09/08〜] Business Application & Platform

当エントリでは、その中から「Data Analytics」のセッションとして公開された『Data driven responses to COVID-19 using Looker and BigQuery』の内容について紹介していきたいと思います。

セッション概要

公式ページで紹介されているセッションの概要情報は以下の通り。

Title(タイトル)
Data driven responses to COVID-19 using Looker and BigQuery

Speakers(講演者):
Leigha Jarett (Demo Manager / Looker)

Description(説明):
As governments and businesses plan their near and long term strategic responses to COVID-19, data is central to decision making processes. With data rapidly changing and being analyzed in so many different ways, actionable, and timely insights become more challenging to develop.
Looker and BigQuery teamed up to unify several leading and trusted data sources in Looker’s COVID Data Block for quick deployment to bring greater clarity and relevance to response strategies.
Learn how ecommerce companies are using BigQuery and Looker to leverage COVID data to adapt to radically-increased usage, how restaurant chains are retooling to focus on deliveries, governmental agencies are using it to plan so they can mitigate the impacts of COVID on their citizens. And of course, organizations across the healthcare space — hospital systems, labs and insurers — are using it to understand how to help people and save lives.
(データは急速に変化し、さまざまな方法で分析されているため、実用的でタイムリーなインサイトを開発することはより困難になっています。 LookerとBigQueryは互いに連携して、複数の主要な信頼できるデータソースをLookerのCOVID-19 Data Blockに統合し、迅速な展開を可能にすることで、対応戦略をより明確にし、関連性を高めることに成功しました。
eコマース企業がBigQueryとLookerを使用してCOVID-19データを活用し、感染者が急増しているCOVID-19に適応するためにどのように活用しているか、また、レストランチェーンが配達に集中するためにどう再編成を行っているか、政府機関がCOVID-19の市民への影響を軽減するために計画を立てるために利用しているかをご紹介します。そしてもちろん、病院システム、研究所、保険会社など、ヘルスケア分野のあらゆる組織が、人々を助け、命を救う方法を理解するためにデータを利用しています。)

セッションレポート

アジェンダ

今日はGoogle CloudのユーザーがBigQueryとLookerを使って、どのようにCOVID-19にデータドリブンに対応しているか、ということをお話します。

  • まずはこのData Blockを作成したきっかけについてお話します。私たちの顧客がどのようにして私たちのところに来て、COVID-19のために公開されているデータを分析する必要があったのかを話します。
  • 次に、LookerとBigQueryの概要を簡単に説明します。次に、LookerチームがBigQueryパブリックデータセットチームと共同で立ち上げたMarketplace Blockについて説明します。
  • そして最後に、いくつかの顧客の話をして、彼らが実際どのようにMarketplace Blockを使ってデータドリブンのレスポンスを作成したかを話します。

COVID-19のデータを分析したい企業が続出

利用可能になった全てのCOVID-19のデータを実際に分析するために、Google Cloudのツールをどのように利用できるのか、というリクエストをユーザーからたくさんいただくようになりました。

私(講演者)はLookerのプロダクトデモマネージャーとして、様々なデータセットを分析するためにLookerをどのように使用できるか、様々なデモを作成することを担当しています。

多くのチームメンバーから「BigQueryとLookerを使って、どのようにCOVID-19のデータを分析できるかを見せるデモを作成するにはどうしたらいいのか?」という質問をもらいました。政府機関からの問い合わせもありました。さまざまな医療機関からは、営業チームやエンジニアから、世界中で患者が急増した場合に備えてデータをどのように利用できるかという質問が寄せられました。もちろん、その他のビジネスでは、EC企業、不動産会社などからも質問を受けました。利用できるようになったすべてのデータを本当に活用するにはどうすればいいのか…。COVID-19のデータを、自社のデータと結びつけることで、洞察力に富んだ意思決定を行い、世界で起きていることに備えて、ビジネスをより良く準備することができるのです

様々な機関がCOVID-19に関するデータを公開し始めました。Googleで検索すると、たくさんのデータソースを見つけることができます。様々な企業、様々なバイオバイオメディカル機関や大学が、世界中の検査結果と感染率の両方を示すパブリックデータセットを発表していました。本当に圧倒的なデータ量でした。

そのため、私たちの顧客は、どのようなデータソースを使用すればよいのか、どのようにこれらのデータソースを使用すればよいのかを理解しようと、継続して我々に相談に来ていました。問題を複雑にしていたのは、各顧客の各データソースにはそれぞれ独自の定義と独自のスキーマがありました。そのため、どこから手をつけて、どのようなデータソースを使うのか、そして、そのデータソースを使って実際に何をするのかというのを理解するのがとても難しかったです。

BigQueryのパブリックデータセットについて

BigQueryのパブリックデータセットプログラムについて簡単に説明します。まず、すべてのETLをやってくれます。ここでいうETLとは、データを実際のデータベースに取り込む作業のことです。BigQueryのユーザーは、どのようなデータソースを使用すべきか、どのようにして自分のデータベースに取り込むかを考える必要がなく、簡単にこのデータをクエリして利用できるようにしています。

このデータセットを使用した場合の問題点は、すべてのアナリストは、このデータをどのように使用するかを把握する必要があるということでした。また、組織独自の質問に対する回答を得るために、BigQueryで直接クエリを作成しなければなりませんでした

もちろんBigQueryはGoogle Cloudが力を入れているデータベースですが、このデータに質問するためには、SQLを理解していないといけません。Google Cloudの顧客の多くには、SQLに精通したアナリストがいます。しかし、これでは実際にデータについて質問できる人が限られてしまいます。私たちのために質問をしてくれる技術者が別途必要なのです

LookerとData Block

そこでLookerの出番です。Lookerのバックグラウンドを少しだけ説明しておきますが、Lookerはデータプラットフォームであり、SQLデータベースの上に直接設置されます。

今回の場合、BigQueryで利用可能なパブリックデータセットの上に直接「座る」形となります。Lookerには、バージョン管理されたモデリングレイヤー(LookML)が搭載されています。LookMLでできることは、異なるメトリクスのデータディクショナリーを作成することです。生のSQLを使って計算を定義します。SQLの記述に慣れていないビジネスユーザーは、Lookerのプラットフォームに飛び込んでデータをスライスし、新しいレポートを作成し、データをエクスポートしてスケジュールを組むことができます。これは私たちにとっても非常に重要なことでした。なぜなら、先ほども述べたように、COVID-19のパブリックデータは必ずしも単純なものではなかったからです。私たちは、さまざまな企業に対してさまざまな方法でメトリクスを定義していました。また、異なる頻度で更新されるデータがあったので、それらをまとめていました。

私たちは、Lookerのアナリストチーム全体で、COVID-19に関連するメトリクスを見るためのLoookMLモデリングレイヤーの作成に取り組みました。その背景を少し説明しますと、10人~15人程度のセールスエンジニアが、データを読み、データソースを学び、ニューヨークタイムズやジョンズ・ホプキンズ大学のような場所で発表された計算を理解しようとしていました。私たちは、これらの計算のために独自のLookMLモデルを作成していました。また、私たちは、計算結果を検証し、すべてが適切に機能していることを確認するために、非常に堅牢なプロセスを用意していました。当初、これらの作業は、基本的にはプロダクトのデモのために実施しており、ユーザーに「このデータを実際に分析するにはどうすればいいのか」を知ってもらうために行いました。しかし、後で、私たちが作成したモデルをすべての顧客に提供すべきだと考えました。ここでLooker Marketplaceの出番です。

Looker Marketplace

Looker MarketplaceはLookerで利用できます。Lookerのインスタンス上で、Marketplaceに直接アクセスして、「Block」と呼ばれるものをインストールすることができます。これらのBlockは、実際には「事前に構築されたLookML」であり、SQLベースのモデリングレイヤーであり、データの意思決定をより迅速にし、主導的な意思決定へと導くことができます。Blockの存在意義としては、ユーザーには、異なるデータセットが何を意味するのか、どこから来ているのか、計算時にどれくらいの頻度で更新されるのかを理解しようとすることに時間を費やしてほしくない、というものがあります。ユーザーには実際にデータを使用して、ビジネスのためにデータ主導の意思決定をしていただきたいのです。

そこで私たちのチームは、COVID-19のLookMLモデルを作成した後、私たちはLooker Marketplaceに公開することに決めました。これが顧客にとって何を意味するかというと、誰でもMarketplaceで、ボタンをクリックして、BlockをLookerのインスタンスにダウンロードして、私たちが作成したモデルを顧客が使用できるようにするということです。MarketplaceのBlockをローカルのインスタンスにダウンロードして、私たちが作成したモデルを利用できるようにすることで、公開されているデータセットに到達するまでの時間を大幅に短縮することができます。

COVID-19 Data Block

顧客がこのBlockをLookerのインスタンスにインストールすると、いくつかのものが得られます。まず、グローバルダッシュボードにアクセスできます。ダッシュボードの左側は、世界中で何が起こっているかをグローバルに見ることができます。このデータは、主にジョンズ・ホプキンス大学やニューヨーク・タイムズなどが提供していますが、他にもテストや政府の決定などを示すデータソースもあります。右側には、イタリアに焦点を当てたダッシュボードがあります。なぜイタリアなのかというと、イタリア政府が、イタリア全土に広がっている事件の詳細について、いくつかの異なるデータセットを発表しているからです。

次はアメリカに焦点をあてた2つのダッシュボードについて見ていきます。

まず、全米の病院のベッド利用率や感染率などを見ることができます。ここからは、1つの州に焦点を当てた新しいダッシュボードにドリルダウンして、郡レベルの情報まで表示することができます。また、その州の緩和策や政策対応も確認することができます。もちろん、フィルタを変更して、その州内のいくつかの郡だけを絞り込んだり、複数の州を比較したりすることもできます。

もう一つ、最近Googleが公開しているモビリティデータに焦点を当てた別のBlockをMarketplaceに公開することにしました。このデータは、米国全体のモビリティのパターンについて述べています。これらのBlockを両方ともLookerインスタンスにインストールすることで、このデータを並べて見ることができ、移動のパターンが、どのように全国に広がる感染症と相関しているかを明確に把握することができます。このBlockをLookerインスタンスにダウンロードすると、ダッシュボードが表示されますが、優れているのは、Explore環境で実際にデータをスライスして、新しい質問をすることができることです。先ほども述べたように、ビジネスユーザーであれば誰でもこのような質問をすることができますが、LookerはSQLクエリをコンパイルしてBigQueryに送信しているだけです。

今日、私たちはこれらの情報が混乱を招く可能性があることに気づきました。このような機密性の高いデータなので、ユーザーにこれらの数値が何を意味し、どのように計算されたのかを正確に理解していただくことが非常に重要なのです。このスライドは、私が撮影したスクリーンショットですが、メトリクスがどのように計算されたかの説明を示すさまざまなツールチップが表示されています。

そして最後に、もちろんLookerのモデリングレイヤーがこのエクスペリエンス全体の原動力となっています。先ほども述べたように、モデリングレイヤーはデータディクショナリーとして機能します。しかし、MarketplaceやBlockの本当に面白いところは、Blockを拡張できることです。基本構成を変更して、データディクショナリーを変更して、ニーズに合うようにすることができます。さらに良いことに、Blockを拡張して、自分のデータと結合することもできます。これがこのBlockの本当の力であり、このようなBlockをリリースすることになった私たちの原動力でもあります。

このプレゼンテーションの後、Looker Marketplaceをチェックしていただければと思います。私たちは、これらのBlockをどのように使用し、どのように自分のニーズに合わせて変更できるかについて、多くのドキュメントを用意しています。さらに、モデリングレイヤーがどのように機能しているかを明確に理解していただきたいと思います。私たちはセールス・エンジニアのチームに入ってもらい、明確なドキュメントを作成してもらいました。

顧客事例

さて、ここで私がお話ししたいのは、この困難な時期にビジネスの意思決定を支援するために、私たちが構築したこのBlockを実際に使用しているユーザーの例です。

HCA社

最初にお話ししたいのは、HCA社です。HCA社は、全米でも有数のヘルスケアプロバイダーです。コロナ禍の初期に、彼らは全国対応ポータルを作るという目標を持って私たちのところに来ました。この全国対応ポータルの目標は、医療管理者や政府関係者に、全国でこの病気の広がりを監視するための唯一の場所を提供することで、スタッフの配置や資源の利用などの病院管理業務の両方について、より良い情報に基づいた意思決定を行うことができ、また政府関係者がデータに基づいた政策決定を行うことができるようになります。

そこでHCA社はLookerパートナーであるSADA社と協力して、全国のプロバイダーが利用できるポータルを構築しました。また、HCA社が行ったことで非常に強力なのは、我々のBlock内のデータを利用して、BigQueryで公開されているデータを利用していたのですが、それに加えて、人工呼吸器やICUのベッド利用率などを中心とした病院独自のデータを組み合わせたのです

病院のスタッフ達はLookerにいつでもログインして、ある地域に焦点を当てて、その地域で何が起こっているかをリアルタイムで分析することができます。そしてもちろん、彼らが見ている情報に基づいて、将来のためのより良い計画を立てることができます。COVID-19は、この全国対応ポータルを作るきっかけとなったものですが、HCA社は、この枠組みが他の病気や一般公衆衛生にとって本当に重要になることは明らかなので、この枠組みが今後も存続することを期待しています。

Diamond Resort社

次にお話しするユーザーは、Diamond Resortです。多くの方がDiamond Resortという言葉を聞いたことがあると思います。世界中にタイムシェア型のバケーションスポットを持つ物件を扱う会社です。パンデミックの時に皆さんも実感していると思いますが。、旅行やレジャーは最初から大打撃を受けた業界の一つです。人々は旅行に神経質になっていたのでしょう。そして当然、旅行できる場所や行き先、出身地などに制限がかけられていました。そのため、Diamond Resortでは、顧客から休暇の予定変更やキャンセルの依頼が殺到しており、Diamond Resortはこの殺到した依頼に対応する方法を必要としていました。

そこで彼らが行ったことは、COVID-19のBlockを使用し、Lookerを使用してCOVID-19のデータを分析し、誰が予定を変更しているのか、誰がキャンセルしているのかを自社のデータと並べて分析し、人々がいつ予定を変更したくなるかを予測することでした。そして基本的にはこれらの情報を利用して適切な計画を立てることで、顧客がこの困難な時期を乗り切ることができるように支援し、いつでもどこでも旅行に行きたいときに休暇のスケジュールを変更できるようにしました。

garten社

最後にお話しするのはgarten社です。健康食品やスナックを全国のオフィスに届けています。想像できると思うのですが、アメリカの主要都市のほとんどのオフィスが閉鎖されたとき、garten社はこの変化に適応する方法を必要としていました。garten社では、事業再開の計画を立て、どのようなオフィスが再開するのか、それはどのくらいのキャパシティで再開するのか、仕事に復帰するのは従業員の半数以上か、それとも一握りの従業員しかいないのか、などを把握する必要がありました。そして、彼らは、このような変化の流れの中で、これらのオフィスをサポートするプログラムを考え出します。

garten社もLookerBlockを使用しています。これまでお話してきた他の企業と同様に、自社のデータに加えて、どのような顧客がいるのか、どのような従業員がいるのか、アメリカのどこにいるのか、などのデータを見て、顧客のニーズを満たすためのプログラムを考え出すことができたのです。

参考情報

おわりに

個人的に衝撃を受けたセッションでした。

海外の各企業のコロナ禍に対する施策のレベルが高すぎます。医療機関が初期の段階でデータ分析できるポータルを作ろうとしていたり、旅行会社がコロナでキャンセルする顧客を予測したり、健康食品会社は事業再開しそうな顧客のデータを分析したり…。

日本の医療機関がいきなりLookerやBigQueryを使うでしょうか。日本の旅行会社が最初からLookerとBigQueryを導入するでしょうか。そもそもデータでビジネスを判断するっていう文化が根付いている国内企業はどのくらいあるのでしょうか。

顧客のデータ分析を支援する者として、非常に考えさせられます。

Google Cloud Next ’20: OnAir | シリーズ | Developers.IO