[レポート] クラウドデータレイクを利用してより良い分析を行う – Subsurface LIVE Summer 2021

2021.08.10

米国時間2021年07月21日〜22日の計2日間、オンラインで開催された「Subsurface LIVE Summer 2021」では、主催となるDremio社のサービスやクラウドデータレイクに関する各種サービスやプロダクトのセッションが展開されていました。

当エントリでは、その中から「Driving Better Analytics Using Cloud Data Lakes」(クラウドデータレイクを利用してより良い分析を行う)というセッションについてレポートします。

目次

 

セッション概要

セッション概要は以下の通り。

<セッションタイトル>
Driving Better Analytics Using Cloud Data Lakes
(クラウドデータレイクを利用してより良い分析を行う)

<登壇者>
Ken Grimes - CTO@HyreCar

<発表内容>
HyreCar Inc. (NASDAQ: HYRE) is a leading national carsharing marketplace for ridesharing, food, and package delivery via its proprietary technology platform. The Company has established a leading presence in Mobility as a Service (MaaS) and achieved incredible revenue growth over the years, the full year 2020 revenue increased 59% compared with 2019.

What holds the keys to unlocking our business success? Certainly data plays an important role. In this talk, we want to share our successful user story of being a cloud data lake pioneer. We will share data ecosystem we build that empowers the rapid growth of the business.

We will start by sharing how and why we decided to move from on-prem to the cloud and how we reduced data warehoused loads and costs by leveraging Dremio data lake storage. Then we will talk about cloud data lake architecture we build by setting up architecture from different layers and leveraging different tools and technologies such as Dremio, Databricks, Superset and other tools. In addition, we want to share how this modernize our data analytics and make it more streamlined and scalable.
(HyreCar Inc. (NASDAQ: HYRE)は、独自の技術プラットフォームを介して、ライドシェア、食品、荷物の配送を行う全米屈指のカーシェアリングマーケットプレイスです。当社はMaaS(Mobility as a Service)において主導的な存在感を確立し、長年にわたって驚異的な収益成長を達成しており、2020年通年の収益は2019年と比較して59%増加しています。

私たちのビジネスの成功を解き明かす鍵は何ですか?確かにデータは重要な役割を果たしています。本講演では、クラウド・データレイクのパイオニアとして成功した私たちのユーザーストーリーを紹介したいと考えています。この講演では、クラウド・データレイクのパイオニアとして成功した当社のユーザーストーリーを紹介し、ビジネスの急速な成長を支えるデータエコシステムを構築したことをお伝えします。

まず、オンプレミスからクラウドへの移行を決断した経緯と、Dremioデータレイク・ストレージを活用してデータウェアハウスの負荷とコストを削減した方法をご紹介します。そして、Dremio、Databricks、Supersetなどのツールや技術を活用し、さまざまなレイヤーからアーキテクチャを設定して構築したクラウドデータレイクアーキテクチャについてお話します。さらに、データ分析を近代化し、より合理的でスケーラブルなものにする方法についても紹介したいと思います。)

 

セッションレポート

ここからはセッションレポートとなります。それぞれのトピックに関して要点をまとめる形で紹介。

概要

  • HyperCar社では何をしているのか?
  • オンプレミスからクラウドのデータインフラに移行した経緯と理由
  • データエコシステム概要
  • データインフラをどのようにして成功へと導くのか

HyperCar社概要

  • How It Works - HyreCar
    • 独自の技術プラットフォームを活用したギグ・エコノミー向けのライドシェアリング市場のリーディングカンパニー
    • MaaS(Mobility as a Service)のフロントランナーであり、2020年のYoY収益は59%増と驚異的な収益成長を達成している

オンプレミスからクラウドのデータ基盤へ

移行に当たっては、以下のポイントが重要であると考えていた。

  • コスト削減
  • セキュリティ
  • アクセスビリティ
  • データ損失のリスクを最小化したい
  • 導入を迅速に進めたい
  • コラボレーションのスムーズ化、効率化向上
  • 効率性を最適化

移行に際してどのような課題に直面したか

個々のデータベースやEXCELのシート・オンプレミス環境のサーバーにあるバラバラのデータを、統一されたクラウドシステムに移行・導入するにあたって、関係者やアナリスト、データエンジニアにとって技術的な面で様々な課題があった。

  • 金銭的なコスト
    • 詳細な計画を練らねばならず、またフェーズ毎のアプローチでも対応が必要だったためコストが非常に嵩んだ
  • スキル面での不足
    • 移行に際しては様々なスキルが要求され、ドメイン領域毎に精通した人材を適宜採用する必要があった
    • また、データレイク環境を構築運用していくにあたっては「継続的に学習する文化の構築」も欠かせなかった
  • 採用への抵抗
    • トップダウンの賛同を得る必要があった
    • 更には、カスタマイズされたトレーニングも行う必要があった

データ分析エコシステム

様々なフルマネージドサービス、SaaSを組み合わせた「エコシステム」でデータ分析環境を実現。

  • データ生成
    • Spring - Gluu, Salesforce, Stripe
    • node
  • データを仲介
    • Kafka Connect
    • MongoDB
    • AWS RDS
    • Firebase
    • Amazon Redshift
    • Redis
    • Amazon S3
    • Amazon EBS
  • データコモディティ
    • AWS S3 + DeltaLake
    • Tableau
  • データ分析・データサイエンス
    • AI/ML
    • Dremio
    • Databricks

迅速に価値を高めることに成功したアーキテクチャ

分析チームは、これらのデータインフラを活用して、僅か2ヶ月という期間で従来のレポート及び分析方法を完全に置き換えることが出来た。また「配信速度の大幅改善」「データの整合性向上」「有意義な洞察を得る仕組みの確立」といった成果も合わせて得られたことにより、環境が変わることへの抵抗・障壁に対する克服も出来た。

また、以下のような点に於いても恩恵を得ることが出来た。

  • 複数のソースにまたがるデータの統合が容易になり、データへのアクセス性が向上した
  • 構造化データと非構造化データをシームレスに分析でき、迅速な意思決定が可能となった
  • 分析作業を1つの環境に集約させる事ができ、透明性とコラボレーションが向上した
  • 全てのデータを容易に利用出来るようになったため、ビジュアライゼーションのカスタマイズも容易となり、結果としてステークホルダーの利便性が向上した

 

まとめ

という訳で、クラウドデータレイクイベント『Subsurface LIVE Summer 2021』のセッション「Driving Better Analytics Using Cloud Data Lakes」(クラウドデータレイクを利用してより良い分析を行う)のレポートでした。