[レポート] The Modern Data Stack: Past, Present, and Future #futuredataconf

データ分析に関わる人間全員見るべし

データ分析

データ分析セッションレポートビッグデータビジネス・アナリティクスレポート

たまちゃん

2020.09.24

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

奈良県でリモートワーク中の玉井です。

9月8日〜9月9日の2日間、FUTURE DATA CONFERENCE 2020というオンラインイベントが開催されていました。今回、そのイベントの下記のウェビナーを受講したので、レポートします。

イベント全体の概要ですが、名前の通り、「データ分析（とそれに関するテクノロジー）の今後」について、多種多様な業界の方々が語るって感じのイベントのようです。

今回はその中の「The Modern Data Stack: Past, Present, and Future」というセッションについてレポートします。

ウェビナー情報

公式情報

※本カンファレンスは、既に2021年分が開催済であり、ウェブサイトの内容も2021年版に入れ替わっております。下記サイトより、「HIGHLIGHTS FROM 2020」を見ていただくと、ある程度は2020年のものが参照できるようになっています。

セッションの公式概要

Data products have drawn a fantastic amount of attention, capital, and traction over the past decade. There are some huge trends that have played out during that timeline:

The shift towards horizontal tooling.

The rise of SQL.

The empowerment of the data analyst.

The net result of these trends has been increasingly empowered organizations staffed by technical / business hybrids, working with state-of-the-art horizontal tooling that all speaks SQL. It’s a great world to live in when compared with where we were in 2010, but there are still huge problems to solve. In this talk, I’ll dig into the data problems that I’m most fascinated with today, what I’m seeing that gets me excited, and where I think things might go from here.

登壇者

セッションに関する補足

現代のデータ分析に使われるツールや技術をModern Data Stackと称して、それらの過去、現在、未来について語るセッションとなっています。

補足情報

データ分析に関するツール等が、既に知っている前提でめちゃくちゃ出てくるので、主要なものをピックアップしておきます。

レポート

※レポート内は登壇者を一人称としています。

はじめに

私は起きている時間のうち、多くを「Modern Data Stack」について考えることに費やしている
このセッションは台本を読むようなものではなく、「Thinking Out Loud」な感じで実施する
- だから、このセッションを再び正確に実施することは難しい

データ分析の新しい波が来ている

このセッションで、（「Modern Data Stack」に関する）自分の考えを皆に共有したいと思っている
2012年〜2016年に、（Modern Data Stack」に関する）大きいイノベーションの波が起こった
- そして、2020年、同じような波が再び来ていると、私は信じている
- この8年の間に何が起こったのか、少し時間をかけて考えてみたい
- それが、今の私たちがいる場所と、今後の方向性を示していると考えている

Modern Data Stackの過去、現在、未来について語る理由

私はデータアナリストになって20年になる
キャリアについて
- 90年代後半、Excelを使わない管理職のためにExcelレポートを作成していた
- そこから着実にステップアップしてきた
現在、私はFishtown Analytics社の創設者であり、そこでdbtというツールを開発している
dbtは「Modern Data Stack」の非常に重要な部分である
- 詳細は後々お話するが、これは、会社の創業者としてではなく、過去8年以上に渡って「Modern Data Stack」を使ってきた1人の人間としてお話する
私はThe Data Science Roundupというニュースレターを発行している
- The Data Science Roundup | Revue
- 週に何百ものデータ分析に関する記事を読んでいる

Modern Data Stackの3つの時代

私は、データ分析（に関する製品）について、3つの時代に分けられると考えている
1：カンブリア爆発
- 2012年〜2016年
- 驚異的なイノベーションの時代
- 毎日のように新製品が誕生していた
2：展開（の時代）
- 2016年〜2020年
- いま、私たちは上記の時代（カンブリア爆発）からゆっくりと抜け出そうとしている
- 詳細は後ほど
3：第二次カンブリア爆発
- 2020年〜2025年
- このような時代が来ると思っている

「Modern Data Stack」について

中心に位置するのが「データウェアハウス」
スライドの左側
- データベース
- SaaS
左側とデータウェアハウスの間
- データをデータウェアハウスに取り込むためのツール
- FivetranやStitchなど
データウェアハウス内部でデータ変換を行うツール
- dbtなど
スライドの右側
- データを分析するためのツール
- Mode、Looker、Chartioなど
この図は現代のツールで構成されているが、本質的には2016年頃のものと変わっていない
私は「Modern Data Stack」をベンチャー企業に実装するために多くの時間を費やしている
- （2016年から現在までの）過去4年間に数十社の実績

小説「リップ・ヴァン・ウィンクル」と一緒だと感じた
- リップ・ヴァン・ウィンクル - Wikipedia
データ分析（のツール）はほとんど変わっていないのに、気づいたら4年が経っていた
- 2016年と比べて、（多少の学習は必要だが）基本的には当時使っていたスキルは今も同じ
このようなイノベーションの大激動の時代を経て、なぜそうなったのかを知りたいと思っている
- なぜこのような時期があったのか

注意点

私は（仕事とかで）dbt以外のツールを支援したり説明したりしていない
業界全体の話をしようとしてるが、世の中の全ての製品に言及できない点に注意していただきたい
- 今回出てきていない製品があっても、それに意図はない
- データ分析に関するあらゆるツールが好きである

「カンブリア爆発」（2012年〜2016年）

全てはRedshiftから始まった…

全てはAmazon Redshiftから始まった
データ分析の根幹に関わる鍵を開けてくれた
- 下流に連なる製品の実現を可能にした

2012年、データを扱う場合、5つの選択肢があった
- Redshiftと比較する形で紹介する
Horizontal Tool
- GAやSalesforceなど
- ツール別にデータがサイロ化
- Redshiftに全てのデータをまとめてることができる→サイロ化を破壊する
- 営業担当者とマーケティング担当者が同じデータで議論できる
OLTP
- MySQL、Postgresなど
- Redshiftとは速度が違いすぎる
- 私が2010年にMySQLとRedshiftを使った感想は、MySQLがのんびりした感じ（twiddle thumbs）だとすると、Redshiftはステロイド剤を使って強化された感じ
Enterprise OLAP
- VerticaやNetezzaなど
- Redshiftとはコストが違いすぎる
- 例えば、某OLAPは年間10万ドル、Redshiftは月160ドル
Hadoop ecosystem
- Redshiftは所有コストを考えなくてよい（従量制）
- 例えば、Hiveクラスタは強制的に実行し続ける必要がある
Excel
- Redshiftで行う作業とExcelで行う作業を比較するのは合理的ではない
- だからここで多くは語らない

Redshift登場前のBIツール

従来のBIツールはとにかく遅かった
- スピードが遅いとユーザーは使わなくなる
- そしてお金も払わなくなる
対策として、プロプライエタリ的（独占的）な方法でデータを切り出すようにしていた製品がほとんど

Redshift登場後のBIツール

処理をRedshiftに任せられるので、分析レイヤーに焦点を絞ったBIツールが登場する
- 2013年には、Looker、Mode、Periscopeらが登場
- これらはデータを取り込まない
- データ変換もやらない
本来の意味での「データ分析」のためのBIツールができるようになった

個人的に体験した「Shift」

私は2013年にRJMETRICSという会社に入社した
- RJMetrics - Wikipedia
RJ社は2012年〜2013年、ベンチャー企業向けのBI分野でリードしていた
入社一ヶ月後くらいに、社内のYammerにRedshift立ち上げに関する投稿があったのを覚えている
- Redshiftが大きな変化をもたらすことになるということを理解していなかった
2013年、Redshiftとそれに付随する製品群が登場した
- 2013年は、まだそれほど影響は無かった
2014年になると、ほぼすべての取引がLooker、Mode、Periscope、またはそれらの組み合わせのいずれかと競合するようになった
2015年にはほとんどの案件を失った
「彼ら」は、あくまで「分析レイヤー」に焦点を当てていた
- その結果、より早くイノベーションを起こすことができた

RJのCEOであるボブムーア氏が、この事についてブログを書いた
- My $2.6 Billion Ecosystem Fail: an RJMetrics Post Mortem

私が信じられないほど有益だと思うチャートを紹介する
（データ分析の）エコシステム全体に対するRedshiftの影響を見てみる
- Redshiftは2012年にローンチ
- 2012年では、Looker、Mode、Periscope、Fivetranの資金調達を全部合わせてもゼロ
- しかし、その後、数年間で数億ドルにまで成長
やはり全てはRedshiftから始まっている

そして「Modern Data Stack」が出揃ってくる

2016年にはこれらの図にのってるツールが出揃ってくる
Redshiftの登場はマジでイノベーションだと思う
- だから私はこの時期を「カンブリア爆発」と呼称する
「フィンチのくちばし」を想起させる出来事である
- フィンチの嘴―ガラパゴスで起きている種の変貌 (ハヤカワ・ノンフィクション文庫) | ジョナサンワイナー, Weiner, Jonathan, 広芳, 樋口, 令子, 黒沢 |本 | 通販 | Amazon
- 進化を観察するためにフィンチのくちばしの長さ等を観察し続ける話
データ分析ツールには色々なもの（取り込み、変換、分析）があるが、これらは全て、この新しい環境（Modern Data Stack）を作るために構築されたものである

「展開（Deployment）」（2016年〜2020年）

2016年のデータ分析関連のツール

データの取り込み
- Fivetran
- Stitch
データウェアハウス
- Redshift
- Snowflake
- BigQuery
データモデリング
- dbt
BIツール
- Looker
- Mode
- Redash
- Metabase
製品自体は色々変わっているものの、大きい軸としてはどれも一貫性がある
普通、動きの早い業界であれば、4年も経てばガラッと変わっているものである
- 2016年〜2020年の間で、私たちは何か見落としているのか
- それとも、この4年間は業界が停滞していたのか

技術のSカーブ

技術のSカーブ（S字カーブ理論）とは - IT用語辞典 e-Words
早い話、データ分析のツールについても、これが該当している

鉄道（敷設された線路の長さ）を例に説明する
ある時点で線路の建設が急上昇し、その後は再び平坦化している
この現象は鉄道に限らない

電信機もSカーブに当てはまる
最初の電信機は1844年に登場する
- 1方向に1つのメッセージを伝えることができる
電信機なしで鉄道を走らせようとするのは想像を絶する難しさである
- しかし、鉄道が発明された当時は、鉄道自体が「最速」の存在だった
- つまり、次の停留所までの情報を得る方法は無かった（鉄道以外で）
- 例えば「鉄道が遅れてまーす」っていう情報を先に伝えることができなかった
- 電信機がこの問題を解決した
トーマス・エジソンは電信機を次のレベルに引き上げた
- その名も四重電信
四重電信は既存の電線を流用できる
- どちらかの方向に2つのメッセージを送ることができる
- つまり通信量が4倍になった

Sカーブでいうと…
- 電信機は一番最初（鉄道を建設するための最初の条件を解除する感じ）
- 四重電信はカーブが急上昇する直前

参考までに、技術革新について書かれている本を紹介する
- Amazon | Technological Revolutions and Financial Capital: The Dynamics of Bubbles and Golden Ages | Perez, Carlota | History of Technology
- Amazon.com: Americana: A 400-Year History of American Capitalism eBook: Srinivasan, Bhu: Kindle Store

2016年〜2020年の間に何があったのか？

今、「Modern Data Stack」は成熟している段階
基本的な技術的基盤は強化され、次の成長段階への基盤となりつつある
- 私はdbtがこれに代わると考えている

2016年、dbtはまだ成熟した製品ではなかった
パフォーマンスを向上させたり、拡張性を持たせたり、色々改良を重ねた
この製品を成熟させるためには、膨大な量の作業が必要
- その上に次世代の技術を構築する準備はできている

Modern Data StackのSカーブを見てみる
最初はRedshiftの時代…というのは先程説明した通り
2016年〜2017年でBigQueryとSnowflakeが大きな一歩を踏み出した
- データウェアハウスのストレージとコンピュートの分離モデルを解き放った
- この頃、dbtはまだ登場したばかり
- dbtが次の成長フェーズの鍵を握っていると信じている
要するに今はSカーブの曲線の直前にいる

今（2020年現在）の「Modern Data Stack」

Horizontal Products
- あらゆるデータが一箇所に集まっている時代
- データのサイロ化を防ぐ
- 横串でデータ分析できる
Speed
- データ分析サイクルのあらゆるフェーズのスピードが向上
- 新製品の開発時間がスピードアップ
- ダッシュボードの作成時間がスピードアップ
- クエリの実行時間がスピードアップ
Unlimited Scale
- 無制限のスケールアップとスケールアウト
- スペックの心配は不要となった
- 心配するのはコストだけに
Low Overhead
- パートタイムの社員が一人でデータ分析基盤をすぐに構築できる時代
United by SQL
- Modern Data StackはSQLで統一されている
- SQLがわかっていれば全部使える時代
Widespread Integrations
- FivetranやStitchのWebサイトを見ると、たくさんのサービスと連携できることがわかる
- 構築がどんどん簡単になってきている

「第二次カンブリア爆発」（2021年〜2025年）

課題（Pain Point）

次の成長フェーズへ至るための課題について考える
課題は2つのタイプに分けられる
タイプ1
- 現在、データガバナンスはまだ未熟である
- 中央集権的なデータチームに頼りすぎている
- 水平的データ分析できるようになったことはいいこと
- しかし、垂直的な分析体験が失われている
タイプ2
- データ連携がバッチ処理的である
- Modern Data Stack側に連携されたデータを別アプリケーションにフィードバックしづらい状態である

データガバナンス

データガバナンスを説明するのは難しい
要するにスライドに書いてあることの集合体である
- そのデータは誰が作ったのか
- そのデータは信頼できるのか
- そのデータはどのように使うべきなのか
- そのデータが最後の更新されたのはいつか
- など…
これらについて把握していないと、データを効果的にナビゲートできない
つまり「データを正しく解釈して使っている」という確信が持てない
- 現在、実はデータの有用性は非常に低い
データを一箇所に集めることができたからこそ発生した課題（Next Level）

データドリブンな企業ほど、データガバナンスに頭を抱えている
スライドに載っているのは、データに関して先進的な考えを持っている企業
- 彼らは独自の社内ツールの開発に投資している
- 例えばSpotify社→How We Improved Data Discovery for Data Scientists at Spotify : Spotify Engineering

スライドはLyft社のツール（Amundsen）のスクリーンショット
- Become a Driver or Get a Ride Now – Lyft
- Amundsen — Lyft’s data discovery & metadata engine | by Mark Grover | Lyft Engineering
データに関する情報がわかるようになっている
- データはどのように生成されたのか
- データは誰が使っているのか
- 問題があったらどのように連絡をとればいいのか
社内の複雑なデータ分析基盤をナビゲートしたいのであれば、これらは必要な基本的情報である

現在、データガバナンスの領域で激しく投資が行われている
例えばAmundsenはオープンソースになっており、自分で使うことができる
- amundsen-io/amundsen: Amundsen is a metadata driven application for improving the productivity of data analysts, data scientists and engineers when interacting with data.
- まだ初期段階なので、すぐに使い始めるには簡単ではないと思われる
- でも使えるのは事実である
今後、もっと多くの製品が出るだろう

真のセルフサービス

もし、あなたがデータ分析に関わっているなら、まだ完全なセルフサービス分析の環境は実現できていないのではないか
そしてその問題は、特定の人や製品によるものではないはず
- 故に非常に難しい問題である

何億人ものナレッジワーカーが自然に感じられる方法でデータにアクセスできるようにするにはどうすればいいのか
ちょっとここでデータ分析界隈で物議を醸しそうな発言をする
- Modern Data Stackは意思決定者の力を奪っていると思っている
- Excel時代に力を発揮していた人たちがたくさんいたはず
- しかしModern Data StackはどれもSQLベース
- 彼ら（Excelマン）は真のデータから切り離されていることに気づく
今までの技術では、このギャップを埋めることはできなかった
何ならExcelの方が優れていた部分も多い
- ファイルサーバーに情報を公開できる
- 相互参照リンクを設定した一連のスプレッドシートを作成できる

ここで皆さんに考えてほしいことがある
スプレッドシート（Excel）のインターフェースが真に正しいものだとしたらどうか？
- 文字通り何億人もの意思決定者が、データ分析のニーズにセルフサービスを提供できるようにするため
- これまで多くの製品が開発されてきたが、どれもSQLベースで、スプレッドシートの実用性や普及率には及ばなかった

私たちは真のセルフサービス分析が可能となるユーザーインターフェースを見つけばければならない
SQLの場合
- データウェアハウスからSQLでデータをとってきて、Google Sheetsにデータを連携
- スプレッドシート上でデータ分析する
- スプレッドシートを使用し続けながら、他のModern Data Stackも使用できる
Sigma社のサービスの場合
- Collaborative Analytics Built for the Cloud | Sigma Computing
- インターフェース自体がスプレッドシートのようになっている
- それをSQLにコンパイルしてデータウェアハウスに対して直接実行する

Vertical Analytical Experience

水平方向に分析できるのがModern Data Stackの強み、というのは以前から思っている
- データのサイロ化を排除できる
- 多種多様なデータを横串で一気に分析するのは重要
スライドはGoogle Analyticsの画面
- これは特定のタイプのデータを探索するために特別に構築されたUIである
- 非常に複雑なデータ領域が存在するため、それに特化したUIなのは良いこと
- GAは、非常に複雑なWeb解析を簡単にしている
つまり、特定のデータに特化したUIがあると、より深いデータ分析が可能となる
- これを垂直方向への分析を呼称している

これからは、人々がデータと対話して分析できるようなGUIが必要だと思う
- しかし、開発にコストがかかるし、価格も高くなるだろう
私は、Modern Data Stackの上にこれらの体験が構築されると信じている
- Fivetran、Stitch、Snowflake、BigQuery、Redshift、dbt、これらがデータを処理するために使用されるのは今までと変わらないはず
- これらの存在を前提にした、垂直方向のデータ分析が体験できるGUIを構築する
- Web分析や販売分析のために特別に構築された軽量なエクスペリエンスが登場するだろう

アプリストアでアプリをインストールするのと同じ感覚でGUIを入れられるようになると思う
- ゼロから開発するのとは対象的な考え
ここの市場機会はどんどん大きくなるだろう

リアルタイムオペレーショナル

Modern Data Stackは人間がデータ分析できるようにすることに主眼が置かれている
- データを一箇所に集めて、分析の準備を行い、人間に見てもらう
Modern Data Stackで出来ることは他にもたくさんある
自社製品のダッシュボードを表示するとき
- 製品の分析結果を、現場の従業員に対して、リアルタイムに提供することができる
- どのくらいの在庫があるか？
- 物流パイプラインはどうなっているか？
プロセスの自動化
- データを業務システムに戻して、自動ワークフローのトリガーにできる

Modern Data Stackの図は左から右へデータが流れている

「プロセスの自動化」は、データの流れを「円」にする

これを（真の意味で）実現するには、一連の処理をリアルタイムで行う必要がある

業務システムが効果的な意思決定を行うためには、ニア・リアルタイムのデータが必要
営業の場合
- 営業は顧客との関係を担当している
- 問題解決の方法を顧客にアドバイスする
- これには、最新のデータを提供する必要がある
実現するための技術的な課題
1：ストリーミングインジェスト（取込）ができるツール
- Debezium
- Meroxa | Home
2：SQLを使ってリアルタイム処理できるツール
- データウェアハウス御三家はすでに取り組んでいる（Redshiftのマテリアライズド・ビュー、Snowflakeのストリームなど）
- ksqlDB - Event Streaming Database Built for Stream Processing
- Materialize – A Streaming Database for Real-Time Applications
3 ：データを別システムに再統合するツール
- Modern Data Stackの新しいレイヤーとなるだろう
- Census（サイトを見つけられず…）
- The Best API Integration Platform for Leading Enterprises | Tray.io
遅延1分で連携できるE2Eのパイプラインが実現できれば、Modern Data Stackはさらに進化するだろう

Modern Data Stackの未来

データのカオスを管理できるようになる
誰でもセルフサービスでデータ分析ができるようになる
垂直型の分析ができる軽量なツールが登場する
ニアリアルタイムで運用システムにデータを戻せるようになる
データの専門家は「ビジネスをプログラムする」ことができるようになる

おわりに

内容以前に、そもそもこれらのデータ分析の製品が「もう知っている前提」「もう使っている前提」だったのが驚きでした。使っているかどうかはともかく、「既に知っている前提」というのがすごいです。日本でModeとかStitchって言ってどれだけ伝わるでしょうか？「データインジェストツール」ってどれだけ伝わるでしょうか？とにかく、アメリカと日本のデータ分析周りの差をひしひしと感じました。

内容についてですが、最近のウェビナーの中で一番勉強になりました。Modern Data Stackと呼ばれる製品・サービスが一通り出てきて、「今度は何が出るんだろう？」と私も考えていたですが、まだまだ課題はありますね。しかし、それをカバーする製品やサービスはすぐに出てきそうな気がしております。今後もキャッチアップできるように頑張るとします。