[レポート] New Kids on the Modern Data Stack Block(新世代のデータ分析サービスたち) #mdscon

[レポート] New Kids on the Modern Data Stack Block(新世代のデータ分析サービスたち) #mdscon

Here Comes A New Challenger!
Clock Icon2021.11.02

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

大阪オフィスの玉井です。

2021年9月22日〜23日 午前9時~午後3時30分(米国太平洋標準時)、The Modern Data Stack Conference 2021というデータ分析に関するオンラインカンファレンスが開催されました。主催はFivetran社です。

この記事では、このイベントの「New Kids on the Modern Data Stack Block」というセッションのレポートをお届けします。

セッション情報

登壇者

※各サービスの開発・運営元の代表者達がプレゼンします。

  • Shinji Kim, Founder & CEO @ Select Star
  • Prukalpa Sankar, Co-Founder @ Atlan
  • Nicholas Handel, Co-Founder & CEO @ Transform
  • Boaz Farkash, Chief Product Officer @ Firebolt
  • Arjun Narayan, CEO & Co-Founder @ Materialize
  • Ajay Khanna, Founder & CEO @ Tellius
  • Oz Katz, CTO & Co-Founder @ Treeverse
  • Barry McCardel, CEO @ Hex

概要

The Modern Data Stack has long been known by its parts: automated ELT, cloud data storage, and a BI tool. But as the stack has matured, more have joined in and at this session we are going to talk with key members of some of the hottest new tech on the market to get their take on how the Modern Data Stack is transforming. Join leaders from hot startup companies as they offer quickfire takes on how they are changing the face of our data stack even further.

「Modern Data Stack」とは何か?それは従来、下記の3つの組み合わせであると知られてきました。

  • 自動化されたELTパイプライン
  • クラウドデータウェアハウス(ストレージ)
  • BIツール

このセッションでは、市場で最もホットな新技術の主要メンバーに話を聞き、Modern Data Stackがどのように変化しているかを理解してもらいます。注目のスタートアップ企業のリーダーたちが、Modern Data Stackのあり方をどのように変えようとしているのかを、手短に語ってくれます。

セッションレポート

※レポート文のみ、一人称は登壇者を指します。

前段

皆さん、こんにちは、ようこそ。私はMichael Bullです。私はFivetranのテクノロジーアライアンスを担当しています。

今回のセッションでは、興味深い新技術をいくつかご紹介したいと思います。アジェンダもぎっしり詰まっています。それでは早速、Firebolt社のBoazさんから、お話を伺います。

Firebolt

皆さん、こんにちは。FireboltのCPO、Boaz Farkashです。ここに来ることができて、本当に嬉しいです。それでは、Fireboltについてお話しましょう。

私たちは、最速のデータ分析体験のためのデータプラットフォームです。お客様の夢のようなデータ分析を実現するために、私たちは全力でサポートします。

当社は、昨年末にステルス状態から脱却しました。幸運なことに、シリーズAラウンドとBラウンドで1億6400万ドルを調達することができ、その後も順調に成長しています。また、Looker、Google BigQuery、大小さまざまな企業のリーダーとも提携しました。

Fireboltは、クラウド型のデータウェアハウスやクエリエンジンが終わるところからスタートしたようなものだと思っています。RedshiftによるデータウェアハウスのSaaS化や、ストレージとコンピュートの切り離しなど、様々なことが行われました。しかし、それでも、私たちの課題はまだ終わっていないことを誰もが知っています。もしあなたのデータがテラバイト以上の規模に達しているなら、それはとても難しいことです。素晴らしい体験を提供することは、非常に難しく、労力と費用がかかります。それを解決するために、私たちはここにいるのです。

まず、Fireboltの特徴についてお話しましょう。

私たちはスピードにこだわっています。私たちはこのことについて、少し生意気です。積極的なマーケティングで、大胆な主張をしているのを見たことがあるかもしれません。しかし、私たちはそれを完全に支持します。スピードは、私たちのDNAの核心です

私たちの創業チームは、ハイパフォーマンス・データベースの分野で非常に深い経験を持っています。今まで使っていたものと比べて、少なくとも10倍以上のパフォーマンスがなければ、私たちにとっては意味がありません。一般的には、バグか最適化が機能しなかったかのどちらかだと考えています。通常、PoCでは、お客様のデータを使って、当社の速度を証明することが最初に行われます。

次に、Fireboltはすべてのデータ分析ワークロードのためのプラットフォームです。Fireboltは、ストレージとコンピュートを切り離したアーキテクチャで構築されているため、同じデータコピーに対して複数のコンピュートタイプを組み合わせることができ、適切なリソースを適切なワークロードに割り当てることができます。Fireboltは、コンピュートリソースの選択を非常にきめ細かく行うことができ、ワークロードの効率と価格性能比を最大限に引き出すことができるのが特徴です。また、リアルタイムワークロード、エレガントなデータ分析、ダッシュボード、リアルタイム分析などをサポートしています。

そして3つ目は、データエンジニアや開発者のために製品を作っているということです。素晴らしいデータ分析体験が提供される未来というものは、従来のデータウェアハウスやアナリティクスの時代よりも、ソフトウェアエンジニアリングに近いものだと考えています。バージョン管理されているためにテストを簡単にしてしまう必要はなく、自信を持って本番環境に簡単にデプロイできる必要があるのです。私たちは、エンジニアや開発者が手間をかけずに素晴らしいデータ分析体験を構築し、最終的にユーザーを幸せにすることを目指しています。

私たちは、業務上の使用例や、お客様に向けた、組み込み型の分析体験の使用例を数多く手がけています。その一つが、当社のお客様であるSimilar Web社の事例です。この会社は最近上場した会社で、マーケットインテリジェンスのリーダーです。

この会社は、非常に興味深い方法でお客様のウェブトラフィックの分析を支援しています。ユーザーの行動を分析し、それがビジネスにどのような影響を与えるのか、また、ユーザーがどのようにして自社のウェブサイトや競合他社のウェブサイトにアクセスするのか、などを分析することができます。Similar Webの価値提案は、エンドユーザーにリッチなデータ体験を提供することに基づいています。そして、優れたユーザーエクスペリエンスは、彼らのビジネスの中核をなしています。そのため、新しい機能を開発する際には、困難な作業が必要になります。

同じような仕事をするなら、Fireboltを使うべきです。200テラバイトを超えるデータを、自社開発のユーザーインターフェイスに接続して、サブセカンドアナリティクスを実現するための唯一のソリューションでした。これは私たちにとって素晴らしい勝利でした。

これは、Fireboltの物語です。本当にありがとうございました。

Hex

皆さん、こんにちは。私はHexの共同創設者兼CEOのBarryです。私たちの活動についてお話できることを楽しみにしています。

Hexはコラボレーション分析ワークスペースで、あらゆる種類のデータソースに簡単に接続できます。ただ、Fireboltコネクタはまだですが…。

SQLやPythonを使って分析を行い、その結果をデータアプリとして公開することで、誰もが利用できるようになります。Hightouch社のPedram氏は、今週のブログでHexをデータ用のfigmaと比較していますが、Hexがデータチーム内のコラボレーションサイクルをどのように変化させるかについて、実に的確な表現をしていると思います。

Hexには、リアルタイムのコラボレーション、コメント、プロジェクトの整理など、チームとしての作業を支援する機能が備わっています。共同作業、共有、パーミッションの管理が非常にシームレスに行えます。これは、チームで分析を共同で行うための最良の方法だと考えています。さらに、分析作業を行う上で非常に楽しくパワフルな場所となるように、Hexには他にもたくさんのスーパーパワーが組み込まれています。SQLとPythonを簡単に行き来できるデータフレームSQLのように、Notebook全体をSQLで書いたり、またはNotebook全体をPythonで書いたりすることができ、完全にポリグロットで、コードなしのチャートセルがあり、matplotlibの余分なコードを書かなくても作業を簡単に視覚化できます。

また、スライダーやドロップダウンなどのウィジェットを配置して、誰もが使えるインタラクティブなデータアプリとしてプロジェクトを公開したり、公開して共有するだけの完全にライブなインタラクティブアプリとして使用したりと、UIの配置も非常に簡単です。

さらに、今月末にリリースされる2.0では、まったく新しいリアクティブコンピュテーションモデルを導入し、完全に再現可能なパフォーマンスとパワフルな作品を簡単に作ることができます。Notebookや分析スペースに関する従来の問題の多くを解決します。

まだまだ話したいことは山ほどあるのですが、5分しかありません。では次に進みましょう。

Hexは、私たちがこれまでデータツールを作ったり使ったりしてきた中で、多くの問題を解決するために作られました。

基本的には、データチームの中で、作業が多くの異なるツールに分散し、ランダムなNotebook、ランダムなSQL、レガシーなBIツールやスプレッドシートに詰まっているという、断片化とコラボレーションの問題を解決しようとしていますが、私たちはデータチームが一緒にコラボレーションすることをとても簡単にします。

また、重要なのは、他の組織とのコミュニケーションと共有のためのレイヤーです。例えば、グラフをスクリーンショットしてドキュメントに書き出す代わりに、アプリを公開してライブで共有することができます。これにより、データチームが他の組織と連携する際に見られる痛みの連鎖を解決することができます。

事例としては、急成長しているfintech企業です。業種的に、企業名を直接使うことは少しむずかしい…というのは、皆さん想像できるかもしれません。しかし、これは本当に素晴らしい話です。

Hexが導入されたことで、今では数十人のスタッフが、さまざまなデータチームで毎日Hexを使用していますが、その目的は、自分自身で分析を行い、チーム内で共同作業を行うことです。自分のチーム内で分析を行い、チーム内でコラボレーションを行うだけでなく、会社や組織の他のメンバーと共有することで、彼らの仕事をよりインパクトのあるものにしています。

このようにして、分散したワークフローなどの問題を解決しています。様々な種類のツールが出回っていますが、データチームが分析したり、コラボレーションしたり、議長を務めたりする方法として、Hexは、本当の意味での理想的なツールになると考えています。

というわけで、以上です。もっと多くの方々とお話ししたいので、ぜひHexのツアーにご参加ください。

Materialize

私はMaterializeの共同創設者兼CEOのArjunです。

私たちは、Materializedを、最もシンプルな方法で説明しようと思います。

私たちの目標は、ストリーミングデータを使ってアプリケーションや分析、体験を構築するために、ストリーミングの取り扱いを始める最もシンプルな方法になることです。

世の中には、色々な素晴らしいツールがあります。今回、ウェビナーを聴きに来ている方の中には、バッチ処理の世界に精通していたり、クラウド型のデータウェアハウスに精通していたりするでしょう。

Materializesの目標は、同じレベルのユーザーエクスペリエンスと使いやすさ、物事を成し遂げる容易さを、ストリーミングの世界にもたらすことです。ストリーミングの世界でデータを用いたプロダクトを構築したり、非常に変化の激しいデータを扱う場合、エンジニアはかなり厳しいトレードオフに直面し、これまでにあった3つのことのうち、1つまたは3つを諦めなければなりません。

既存のストリーミングツールは、このスライドにあるようなトレードオフのすべてに対して、3つのうち2つのソリューションを選んでいるようなものです。非常に高速な処理が必要であれば、費用さえかければ、完全なストリーミング・マイクロサービス・アーキテクチャを構築することができますが、SQLで得られる開発のスピードと柔軟性を諦めることになりますよね。逆に、これらのアーキテクチャを構築するための非常に高い費用を払えない場合、スピードを諦めめることになり、基本的には1日1回の更新になりますが、そのかわり、完全な機能を備えたSQLバッチエクスペリエンスを手に入れることができます。

私たちMaterializedは、このようなトレードオフを強いない製品を提供することで、非常に高速なシーケルストリーミング体験を得ることができます。開発のしやすさは、クラウドデータウェアハウスで慣れ親しんだものと同じです。

Materializeは、リアルタイム分析を可能にするストリーミング・データベースとしてゼロから構築されており、アプリケーションはストリーミングのために構築されています。バッチ型のデータソースだけでなく、あらゆる種類のストリーミングデータソースに接続できます。また、Postgres互換のデータベースとして提供されています。

他のストリーミング製品との大きな違いの1つは、8つの結合や3つのサブクエリなど、あまりにも複雑なSQL(が実行できること)です。これは非常に重要なことで、こういった複雑な処理を必要とするSQLが実際に(現場には)あるからです。コードの中には、企業が何年も、場合によっては10年かけて開発してきたビジネスロジックの多くが含まれていることがよくあります。そのため、ストリームに移行してスピードのメリットを得たいと考えています。すべてを捨てて最初からやり直したくないのであれば、データの多くは正規化されているでしょう。これは、データとOLTPデータベースの管理方法のゴールドスタンダードです。あなたはおそらく、データがきちんと正規化されていることを確認するために、多くの考えや注意を払ってきたことでしょう。ストリーミング分析やストリーミングインフラがそれに対応できないからといって、すべてのデータを正規化しないことで、そのすべてを放棄したくはないでしょう。また、データの整合性や正確性のレベルは、バッチの世界ではそれなりの理由があって慣れていますが、ストリームに移行する場合、それを手放したくはないでしょう。

既存のストリーミングソリューションの多くは、最終的に生まれるデータに一貫性はありますが、昨今における、目まぐるしく変化するデータに対して実際に決定的なアクションを起こすには不十分です。

Materializeはクラウド製品で、現在クラウド上で利用できます。ここにアクセスしてサインアップすれば、Materializeを使用することができます。

私たちのお客様であるKepler社は、ヨーロッパの大手金融サービス会社です。彼らが手掛けているビジネスの中にアルゴリズムトレーディングがあります。

Kepler社は、アルゴリズムトレーディングデスクの中核を成す、非常に共同作業の多いワークロードのために、バッチからストリーミングへの移行を検討していました。彼らは、OLTPデータベース上で直接実行されているクエリのワークロードを伴う既存のワークフローを利用して、しかも、SQLを犠牲にすることなく、その負荷を軽減したいと考えていました。彼らはすでに、自分たちが何を求めているかを正確に知っているバッチワークロードを持っていました。それはSQLで表現されていました。それをもっと速くしたいと思っているのです。これは、ライブデータと過去のデータを組み合わせた複数の結合を含んでいます。

MaterializeをKafkaソースやPostgresデータベースに接続し、その下流や上流で、これらのSQLクエリをライブで実行し、アラートやダッシュボードを動かすことができました。

SQLの世界の素晴らしい点の1つは、5分ごとに変化する本物のエコシステムであるということです。そして、エコシステムの各部分の中で一番良いものを求めます。それが標準化されたSQLの力なのです。Kepler社の事例の詳細については、当社のウェブサイトをご覧ください。他にも多くのお客様やユーザーがいらっしゃいます。それでは、どうもありがとうございました。

Transform

いいでしょう。皆さん、こんにちは。私はNickと申します。これまでのキャリアのほとんどをデータアナリストとして過ごしてきました。現在は、Transformの共同創設者兼CEOを務めています。私たちが何を作っているのか、皆さんにお話しできることを楽しみにしています。

Transformは、業界最初のメトリックストアです。そして、私たちの使命は、「データにアクセスできるようにすること」です。

私と共同創業者は、過去10年間、Airbnb、Facebook、その他いくつかのスタートアップ企業で同様の製品に取り組んできました。企業は、ビジネス関係者間の共通言語としてメトリクスに依存しています。また、アナリストは、成功を定義し、新しいイニシアチブを追跡するために、メトリクスを使用します。しかし、指標の定義がさまざまなツール、スプレッドシート、Wikiページ、社内ダッシュボード、さらにはBIツール自体に分散しているため、指標の唯一の情報源を確立することは、今日ではほぼ不可能です。

Transformは、データアナリストがさまざまなアプリケーションで一貫したメトリクスを定義できるようにします。当社の製品は、データウェアハウスの上に設置され、SQLやPythonなどのさまざまなインターフェースを介してデータにアクセスできるようにしながら、大規模なメトリクスガバナンスを実現し、先ほど紹介があったHexを含むモダンデータスタックの他のツールと直接統合します。

当社の製品は、コードとしてメトリクスを定義・管理できるMetrics Framework、ビジネスユーザーが共同作業を行い、インサイトを安全に消費できるようにするMetrics Catalog、そして最後に、BIツールからノートブックまであらゆるものに接続する、SQLやPythonを含むAPIの3つの部分で構成されています。

Transformsのミッションは、データにアクセスできるようにすることです。アクセシビリティに関する中核的な課題は、主要な指標の定義に一貫性がないことだと考えています。これは、データへの不信感や、ロジックの違いを追求しなければならないアナリストの生産性低下につながります。

データへの信頼を築き、データから利益を得るためには、例えば「北米での売上は何か」といった最も基本的な質問に答えられるようにする必要があります。メトリクスのフレームワークを使ってメトリクスを一元的に定義することで、組織全体で一貫した定義を使用していることを信頼することができます。

メトリクスは、時間を超えて最も一貫した対象の1つという興味深い役割を持っています。つまり、定義を一元化することで、アノテーション、アノマリー、予測など、ビジネスにおける重要なコンテキストやインサイトを構築するためのハブを作ることができるのです。

最後に、メトリクスにまつわる課題は、技術的なものや組織的なものだけではありません。当社の製品は、ロジックを整理し、ステークホルダーが定義に同意するプロセスを作成することで、メトリクスの定義に関するコラボレーションとガバナンスをサポートすることを目的としています。

Netlify社のワールドクラスのデータチームと一緒に仕事ができるのは信じられないほど幸運です。

Netlify社のデータ分析チームには約10名のスタッフがおり、この分野の思想的リーダーです。彼らは、収益、顧客、購読などの主要なビジネス用語について、ダッシュボードやチーム間で一貫した指標データセットを定義するためにTransformを導入しました。

私たちはこのチームと密接に協力して、モデルデータセットの上にさまざまな種類のメトリックを定義し、それらのデータセットを下流のアプリケーションに公開できるようにしました。さらに、Transformは、最も重要なメトリクスのレポーティングレイヤーとしても使用されています。Transformにより、ビジネスチームは必要な数値がどこにあるかを把握し、データの基本的なスライスを安全にセルフサービスで使用することができます。データアナリストは、下流のツールでの反復的な処理を減らしながら、より多くのメトリクスを扱うことができるようになります。同時に、ビジネスチームは、特定のロジックを構築しなくてもメトリクスを見ることができるようになりました。

お聴きいただきありがとうございました。もっとお話ししたいことがあります。私に声をかけてくださる方がいれば、いつでも喜んでデモをさせていただきます。

Select Star

Select Starの創業者兼CEOのShinjiです。本日はお招きいただきありがとうございます。

今日、多くの企業がデータウェアハウスをクラウドに移行し、誰もがデータにアクセスできるようにして、より良い迅速な意思決定を行えるようにしています。しかし、このオープン化によって、社内の誰もが多くの疑問を抱くことになります。「このデータはどこから来たのか?」「この指標はどうやって計算したのか?」「このデータはあるのだろうか?」「どこで手に入れられるのか?」そして、これらの質問すべてに正しい答えを提供することは、以下の3つの理由から、今日ではそれほど容易ではありません。

まず第一に、データの所有権が分散していること。現在、多くの企業では、営業、マーケティング業務、カスタマーサポートなどにアナリストを配置し、独自のデータモデルやレポートを作成しています。これにより、迅速な対応が可能になりますが、混乱を招き、時にはレポートに間違ったデータを使用してしまうこともあります。

第二に、データに関する部族的な知識です。従来、多くの組織ではデータのドキュメント化が軽視されてきました。多くのデータアナリストやエンジニアは、前任のアナリストがなぜそのように構築したのかを理解できないため、既存のデータセットを複製したり、データモデルを完全に作り直したりしてしまいます。

そして第三、データモデルの変化の速さです。新しい機能や実験を開始するたびに、新しいデータセットやパイプラインが生まれます。企業の規模が大きくなるにつれ、すべての変化を手動で追跡するのは非常に困難です。

Select Starは、これらの問題をすべて解決するための、自動化されたデータディスカバリープラットフォームです。それでは、早速デモをご覧ください。

Select Starは、データを見つけて理解するのに役立つ自動データディスカバリーツールです。Select Starのメインページでは、すべてのデータソースとBIツールを見ることができます。Select Starは、最新のダッシュボードやテーブルの作成状況、常に人気のあるデータセットを自動的に教えてくれます。それでは早速、組織内での使用パターンを見て、各データ資産の人気スコアを計算してみましょう。

Select Starを使うと、データベースやBIツールをまとめて検索することができますね。検索結果は人気順に表示されるので、同じようなテーブルがたくさんあっても、みんなが使っているものは常にソートされています。みんなが使っているものが、常に上位に表示されます。どのテーブルでも、スターを選択すると自動的にメタデータが表示されます。例えば、最終更新日はいつですか?誰がこのデータを管理しているのかタグを設定することもできますし、データウェアハウスやdbtレポートから説明文を自動的に読み込むこともできます。また、説明文を簡単に更新して、すぐに保存することもできますね。

テーブルの各列は人気順に並びます。そして、どの列がSQL結合に使われているかを指摘することができるようになります。データウェアハウスで主キーや外部キーのラベルを個別に設定する必要はないんだ。また、このデータセットが過去にどのように使われていたか、どのようなSQLクエリが実行されていたか、人気のあるものは何か、よく結合されるテーブルやこのテーブルのトップユーザーは何か、といったこともわかります。

データリネージは、データがどこから来て、このLookerダッシュボードのようにどこへ行くのかを示しています。ルートテーブルからダッシュボードまで、データを端から端まで完全に把握することができます。また、データセットがダウンした場合、どのダッシュボードや誰に影響が及ぶかを簡単に把握することができます。さらに、すべてのテーブルを1つの場所で見ることができ、それらを一括してパックすることができます。そのため、データがどのように整理されているかを誰もが知ることができます。例えば、このテーブルは営業関連に属するのか、マーケティング関連に属するのか、認証済みのデータセットなのか、非推奨のデータセットなのか、などです。

他にもSelect Starには様々な機能があります。デモに申し込んで、ぜひ試してみてください。

ピツニーボウズ社は、エンタープライズデータカタログをSelect Starに移行しているお客様の一つです。彼らの主な課題は、何千ものテーブル、ETLジョブ、ダッシュボードなど、あまりにも多くのデータを抱えていることでした。

Select Starを導入することで、まず組織全体におけるデータセットの現在の使用パターンを把握することができました。これにより、長い間放置されていた古いデータセットやレポートを整理することができました。また、データセットを管理するために、煩雑なタグのドキュメンテーションや回答の管理を行うことができるようになりました。そして最後に、SnowflakeテーブルからTableauダッシュボードまでのエンドツーエンドのリネージは、彼らにとって有意義な機能です。テーブルやカラムのデータを変更した場合、エンジニアはそれがTableauダッシュボードに与えるであろう下流への影響を確認することができます。そのため、データモデルの更新が安全に行えるようになりました。

lakeFS

私の名前はOz Katzです。私はTreeverse社のCTOであり、共同設立者でもあります。

lakeFSは基本的にオープンソースのツールで、データレイクの上で優れた機能を提供することを目的としています。

データレイクは基本的に、オブジェクトストア上で動作するものであれば、世界で最もスケーラブルな共有フォルダのようなもので、多くのユースケースや多くのツールをその上で動作させることができるという点で優れています。複数のペタバイト、あるいはそれ以上のデータをホストすることができます。しかし、デプロイメントツールとしてはあまり優れていません。データエコシステムの方向性について言えば、データプロダクトの話ではありません。

従来、プロダクトは非常に構造的な方法で展開されてきました。しかし現在は、オブジェクトストアの上でそれを行おうとしています。オブジェクトストアは非常に変更しやすく、エラーが起こりやすい環境です。

これを解決するために、lakeFSはこの上で管理されるデータの種類について意見を述べないようにしています。つまり、非構造化データから表形式のデータまで、parquetやIceberg、Delta Lakeなどの形式に関わらず、あらゆるデータをこの上で実行することができるのです。また、データの規模に対応できるように設計されています。そのため、複数のチームがデータを読み込んだり、書き込まれた複数のペタバイト級のデータに基づいてデータを作成したりすることができます。

私たちのコミュニティには、さまざまな企業が、さまざまな規模のユースケースでこのソリューションを採用しています。

では、データのライフサイクルとは何かを考えてみましょう。

アプリケーションについては、業界としてはすでに釘付けになっていますよね。皆さんがどこで仕事をしていようと、おそらく次のようなことをしていると思います。ブランチなどを開いて、そこで将来の開発を行い、mainブランチにマージする前にCIに似たテストを行います。そして、本番環境にデプロイします。これはサービスに適していますが、データにはこのような2つのメトリクスはありません。これを可能にするのがlakeFSです。

ブランチの概念について考えてみましょう。lakeFSでは、複数のペタバイト級のデータレイクがあったとしても、APIコールやボタンを1回クリックするだけで、ブランチを作成することができます。このブランチは、基本的にデータレイク全体のプライベートコピーで、コピーをコピーし、ブランチを作成してもデータが移動することはありません。

ブランチでは、Sparkジョブを実行したり、ETLを実行したり、機械学習実験の上で大規模な処理を行ったりと、好きなだけ自由にシステムを壊すことができるのです。そして、その出力に満足したら、ユーザーが使用するmainブランチに安全にデプロイすることができます。その際、マージする前に実行される一連のhookを採用することができます。例えば、データ品質チェックやスキーマ検証を導入したり、新しいテーブルを追加したときに、メインのディスカバリーツールに登録されているかどうかを確認したりするのに適しています。つまり、データベースに反映させたいあらゆる種類のベストプラクティスが、実行される場所が非常に明確になっているのです。

また、データを最初にマージすることは、アトミックな操作です。データの消費者としては、mainブランチを見ると、すでにすべてのチェックを通過した検証済みのクリーンなデータを受け取るか、まったく見ないかのどちらかですが、中間データや途中で失敗したものなどを見ることができる場所はありません。本番環境に公開して、実際に人々がこのデータに依存するようになったら、何か問題が発生しても、ブランチを前のコミットに戻すだけで、現在存在するすべての異なるコレクション、すべての異なるオブジェクトで動作することがわかっている前の状態に時間を戻すことができます。

では、Similar Web社の事例を紹介します。

彼らは、主に機械学習の実験を管理するためにlakeFSを使用しています。彼らは非常に大規模なデータサイエンスチームを持ち、同時に多くの実験を実行しています。

実験の定義のひとつに、「再現性」があります。実験は再現性のあるものにしたいですよね。本番で何か問題が発生しても 実験を行った時の状態に戻って、もう一度実験を行い、同じ結果を得ることができるようにしたいですよね。それが決定論的であれば、同じ出力が得られるはずです。それを決定論的にするのは難しいことですよね。なぜなら、入力はその間に変わっているかもしれないからです。非常に変化しやすい環境なのです。

そこで彼らは、実験用のブランチを作成します。孤立した環境下で実験を行います。そして、モデルとなるような出力を得ます。それはモデルであったり、ETLのための変換テーブルであったりします。そして、それをコミットして本番にマージします。何らかの理由で本番環境で問題が発生した場合、その原因は彼らのデータではありません。期待していたデータではなかったり、推論がうまくいかなかったりした場合は、完全に不変である自分のブランチに戻るだけです。コミットに依存しているので、同じ実験を再び行うことができます。そして、戻ってきたものをテストしてみるといいでしょう。そして修正を行い、それを本番環境にマージします。これは、本番環境に変更を導入するための非常に安全な方法です。

LakeFSは、オープンソースで、すべての主要なクラウドプロバイダーの上で動作します。Amazon S3、Google Cloud Storage、Azure Blobなど。オンプレミスでは使えないかもしれませんが、お気軽にチェックしてみてください。

Tellius

皆さん、こんにちは。TelliusのCEO兼創業者のAjay Khannaと申します。

データの取込からデータ変換、そして最終的にはクラウド型のデータウェアハウスやデータレイクにデータを保存するという、モダンデータスタックの分野で多くのイノベーションが起きていることは、非常にエキサイティングなことだと思います。

しかし、消費者レイヤー(データを使う側)やデータの分析方法に目を向けると、データを利用している人はほとんどいません。この分野では、ほとんど、あるいはまったくイノベーションが起きていないのです。データの複雑さは増していますが、その複雑さは非常に大きなものです。ユーザーにとっては、なぜ物事が変化しているのか、どうすれば成果を向上させることができるのか、何に焦点を当てればよいのかを把握することが極めて難しくなっています。このような洞察を得るためのプロセスは、極めてマニュアル的で非効率的であり、ビジネスチームは通常、そこでデータの専門家に頼ることになります。

現在、世の中にはデータサイエンスツールがあります。しかし、それらは一般的に上級者向けに作られており、使い方も複雑です。例えば、ある製品の市場シェアが先月下がったのはなぜか、というような単純な質問があったとしても、分析するためには何百万もの組み合わせが必要になり、それを手作業で行うのはほとんど不可能です。そのため、一般的には何十枚ものダッシュボードを作成したり、SQLやPythonの専門家を待つことになります。このプロセスには拡張性がありません。そして、それは偏った洞察や意思決定の遅れにつながるのです。

想像してみてください。より自然な言語インターフェースで、データのサブセットではなく、すべてのデータにアドホックな質問をする最新の簡単な方法があるとしたら…。そのシステムは自動的にこれらの組み合わせを実行し、隠れた洞察を見つけることができ、ユーザーは何が起こっているかだけでなく、なぜ測定基準が変化するのか、どうすれば結果を改善できるのかを理解できるようになります。

Telliusは、AIを活用したディシジョン・インテリジェンス・プラットフォームであり、アナリストやビジネスチームが機械学習のAI技術を使ってTelliusのデータから、より簡単で迅速なインサイトを得られるようにします。

どのように機能するかというと、さまざまなデータソースに接続します。そして、ラストワンマイルのデータ準備と変換機能を提供します。そして、AIを使って、アドホックなデータ探索から高度なインサイト、さらに高度な機械学習やその他のテクニックまで、インサイトを見つけるプロセス全体をスピードアップします。ビジネスユーザーは、データの専門家に頼る必要がないという点が、さまざまなユーザーにとっての利点です。より簡単な形式で質問をすることができます。また、データを掘り下げることもできますし、インサイトをストーリー形式で提供するように設定することもできます。アナリストにとっては、分析プロセスを大幅に向上させることができます。今では、キードライバーを理解し、セグメントの細分化を見ることができます。また、コホートの比較も可能になり、潜在的な異常値や外れ値を発見することもできます。データの専門家は、機械学習やAIによる自動化、データ準備やデータ変換の機能を利用して、分析のワークフローを強化することができます。

Telliusの特徴は、データの消費者と作成者を同じプラットフォームで結びつけるために作られたことです。データの消費者は何を求めているかというと、アドホックな分析やインサイトの統合という点での使いやすさを求めています。一方、作成者はというと、彼らが重視するのは、パワーと柔軟性です。彼らは、SQLやPythonのコードを持ち込むことができます。データの準備をしたり、機械学習モデルをシステムに導入したりしたいと考えています。

この2つを同じプラットフォームに統合することで、データ分析のワークフローを加速させることができます。インサイトの観点では、Telliusは市場で最も包括的なインサイト機能を提供しています。根本的な原因となるキードライバーを明らかにし、データに隠された潜在的なトレンドを見つけることができます。さらに重要なことは、お客様がこれらの情報を説明可能で実用的な形式で利用できるようにすることです。これらの魔法をどのようにして実現するかというと、私たちが開発した独自のデュアルアナリティクスエンジンがあります。

市場のトレンドを見てみると、Snowflakeはアドホッククエリから始まり、今では機械学習の機能を追加することに力を入れています。また、Databricksは、SparkやML、データ変換から始まり、今でははアドホッククエリに移行しています。

Telliusは、最初からこれら2つのワークロードをサポートするために構築されました。Telliusでは、ユーザーがアドホックな質問をすると、テラバイト単位のデータに対して瞬時に回答が得られ、1秒以内に応答することができます。これは、基礎となるデータウェアハウスのパワーを活用できるライブプッシュダウンクエリモードで行うことができます。

また、データをメモリに格納しても、これまでと同じ体験とパフォーマンスを提供できます。また、機械学習ワークロードについても、ユーザーが大規模なワークロードを実行し、機械学習モデルを作成することができます。また、分析サイクルの中で、さまざまな疑問に答えるためのインサイトを得ることもできます。

では、Telliusはどのようにしてお客様を支援しているのか?。私たちは、お客様がデータに基づいた迅速な意思決定ができるように支援します。例えば、Fortune 500に属する、ある金融機関を例にとってみましょう。

この企業では、ローン延滞の要因を把握するのに苦労していました。何日も何週間も時間がかかっていました。何百もの変数、何百万もの組み合わせを分析していたのです。TelliusのAIによるインサイト機能により、これらの重要な要因をかなり迅速に特定できるようになりました。また、高いローン延滞率の原因となっているリスクの高い集団にもハイライトを当てることができるようになりました。

組織全体で見ると、インサイトが10倍速くなったことで、報告書のバックログが大幅に削減され、数百万ドルの隠れた機会も特定できるようになりました。

私たちは無料トライアルを提供しています。ぜひお試しください。ありがとうございました。

Atlan

皆さんにお会いできて光栄です。そして、お招きいただきありがとうございます。私はAtlanのAndrewです。私たちは、「エンジニアのためのGitHub」や、「営業チームのためのSalesforce」のように、モダンデータチームのための最新の家を作っています。

実は、私たち自身もデータチームとしてスタートしました。私たちは社会貢献のためにデータサイエンスを行っています。国連のような貧困削減のための組織と協力しています。数十億画素の衛星画像や、数億人の市民の機密データなど、大規模なプロジェクトにも取り組んでいます。

これらは一見夢のようなプロジェクトですが、社内では毎日がカオスでした。

カオスの理由は、スライドに表示されているSlackメッセージのいくつかを見ればわかるでしょう。Shilpa氏がデータを求めていたり、Hanna氏がより詳細な情報を得ようとしていたりします。

彼女はインドの閣僚と仕事をしていたのですが、朝8時に閣僚から電話があり、「ダッシュボードが壊れている」と言われたそうです。データ担当者にとっては悪夢のようなシナリオだと思います。データ担当者にとっては悪夢のシナリオです。誰がダッシュボードを所有しているのか、データはどこから来ているのか、何が壊れたのかもわからず、何人もの担当者と何度も電話をしなければなりませんでした。そして10時間後、彼女はそれを解決しました。

しかし、これは避けることができたかもしれません。この問題に30~50%もの時間を費やしていることを、私たちは知っています。その理由は、必ずしもテクノロジーの問題ではないからです。データチームは最も学際的なチームの一つであり、アナリスト、エンジニア、サイエンティスト、異なるツール、異なるスキルセット、異なるDNAを持った人たちがいます。このことに気づいたとき、私たちは努力を拡大することができないと理解しました。それは、コラボレーション・オーバーヘッドと呼ばれる問題が原因です。そこで私たちは、自分たちの問題を解決するためのソリューションを構築しようとしました。

その結果、チームの俊敏性が6倍になり、8人のメンバーで12カ月という記録的な短期間で国内のデータプラットフォームを構築することができました。それが出来た理由は、私たちが自分たちのプロダクトをドッグフーディングしていたからだと思います。そして今日、私たちはモダンデータチームのためのコラボレーション環境を構築しました。

このスライドを見ると、Gartner社に認められた素晴らしい投資家たちがいます。しかし、最も重要なのは、PlaidやPostmanといった高成長のスタートアップから、JuniperやUnileverといった上場企業に至るまで、素晴らしいお客様がいらっしゃることです。

さて、Atlan自体の話に入りますが、Atlanが行っていることすべての原動力となっている3つの重要な原則があります。

1つ目は、Data assetsの再利用性です。

Data assetsとは、もはやテーブルだけではなく、dbt Modelsやパイプラインも含まれます。Lookerでは、これらのData assetsの一つ一つをどのように再利用するか、そして、それらを組織内で発見できるようにするかを検討しています。

Data assetsを発見した後は、Data Asset 360 profileという概念を作ります。

たとえばGitHubでは、エンジニアが作業を開始するとコードのリビジョン履歴が表示されますが、READMEにデータのリビジョン履歴を表示することはできません。データは誰のものか?このデータはどこから来たのか?誰が所有しているのか、どこから来たのか、それに関連するタグは何か?

AtlanはSQLクエリの履歴を解析して、ソーステーブルからTableauダッシュボードまで、カラムレベルのデータリネージを構築することもできます。

そして最後のピースは、エンベデッドコラボレーションです。私は、チームとして直面したコラボレーションの課題について話しました。

私たちが認識しているのは、データチームが様々な異なるシステムの中で、常にミクロのワークフローを行っているということです。私たちは、1つのプラットフォームの中だけでなく、その外でもコラボレーションができるようにしました。

Atlanの各データアセットには、ハッシュタグとともに固有のURLが設定されています。Slackボットを使って、Slackで共有することもできますし、データやプロファイルを自分に合ったツールで利用できるようにすることもできます。Lookerのダッシュボードを開いていれば。例えば、Lookerのダッシュボードを開いていれば、そのdata assetsに関連するすべてのメタデータをLookerのダッシュボード内で取得できるので、異なるツールやシステム間でコンテキストスイッチをする必要がありません。また、様々なチケッティングソリューションやプロジェクト管理ソリューションをAtlanに直接統合しています。例えば、問題が発生した場合、アプリケーション内でJIRAのチケットを作成することができます。

最後に、私たちの最も古い顧客の一つであるUnilever社の話から始めたいと思います。

彼らが最初に当社を訪れたのは、数年前のことでした。彼らは、クラウドデータレイクをリリースしたばかりでした。しかし、その時のプロムは完全なブラックボックスでした。何が利用できるのか、どうやってアクセスするのか、可視性がありませんでした。また、市場調査のためのレポートやインサイトの作成には15時間も16時間もかかるものもあり、毎日レポートが必要でした。

そこで彼らは、データレイクの可視化とアクセスの民主化を目指して、当社を訪れました。そして、当社と協力してから9カ月で 時間を大幅に短縮し、インサイトを得るまでの時間を短縮することができました。15時間かかっていたレポートが15分に短縮されたのです。また、これらの社員の一部は、同時にレベルアップすることができました。彼らはデータサイエンスのスキルを身につけることができます。

それから数年後、Atlanは、ユニットレベルのデータチームの約1,000人がデータレイク全体にアクセスできる単一のポータルのような存在になりました。営業担当者は、Atlanで構築されたものを使って、毎日電話でインサイトを得ることができるようになりました。

おわりに

私が以前から知っていたものは、下記の3つだけでした。

  • Firebolt
  • Materialize
  • Transform

他のプロダクトは、全く知りませんでした。完全に初遭遇です。データガバナンスやカタログなどの、データを管理する系のものや、dbt(の思想)のように、ソフトウェア開発の手法を取り入れるようなプロダクトなど、モダンデータスタックの今後の方向性が、ぼんやりですが、何か見えてきそうなラインナップのように感じました。

クラスメソッドとしては、全て試してブログにしたいところですね。

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.