[レポート] Today is Tomorrow’s Legacy（データ分析のレガシーを誇り高いものにするために） #futuredata

このLEGACY 叩く計算機新しいツールをインストール From 京阪神

データ分析セッションレポートデータアクセスデータガバナンス

たまちゃん

2021.11.11

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

大阪オフィスの玉井です。

2021年10月13日午前9時～午後3時（米国太平洋標準時）、Future Dataというデータ分析に関するオンラインカンファレンスが開催されました。

この記事では、このイベントの「Today is Tomorrow's Legacy」というセッションのレポートをお届けします。

セッション情報

登壇者

Veronika Durgin氏（Head of Data, Saks Fifth Avenue）

概要

Today, having hundreds of terabytes of data is no longer uncommon for many companies. Executives and business users alike expect access to high quality near real time data insights. New data tools are popping up almost daily offering solutions to new and old problems. Data teams cannot afford to spend years building solutions because what we do today will be legacy tomorrow.

Let’s take a pragmatic approach by learning from the old and embracing the new while being agile and creative.

今日、多くの企業にとって、数百テラバイトのデータを持つことはもはや珍しいことではありません。経営者やビジネスユーザーは、リアルタイムに近い高品質のデータにアクセスできることを期待しています。毎日のように新しいデータ分析ツールが登場し、新旧の問題に対するソリューションを提供しています。データチームには、何年もかけてソリューションを構築する余裕はありません。なぜなら、今日行ったことは明日には失われてしまうからです。

古いものから学び、新しいものを取り入れることで、現実的なアプローチを取り、機敏で創造的であり続けましょう。

セッションレポート

※レポート文のみ、一人称は登壇者を指します。

前段

まず最初に、私の自己紹介をさせてください。私はVeronikaといい、私のチームと私はSaks Fifth Avenueでデータの管理を任されています。

私は20年以上データに携わっていますが、実は医学部進学を目指して大学に通っていたのですが、医学部に行くほどの情熱はありませんでした。大学在学中には、コンピューターのオペレーターとして少しだけ働いていました。その際、「世界で最も素晴らしいツールであるMicrosoft Access」を初めて手にしました。しかし、実際にデータを扱うようになったのは、SQL ServerのジュニアDBAとして仕事をするようになってからです。

学士号を取得した後、私にとっては最初のクエリで恋に落ちたようなものでした。実は、大学に戻ってソフトウェアエンジニアリングの修士号を取得したいと考えていたのです。過去20年以上にわたり、さまざまな規模や成熟度の企業で、個人的な貢献者として、あるいはチームを率いる立場で、さまざまなデータ関連の職務に携わってきました。

私は生涯学習者であり、熱心な読書家でもあります。データ領域にいると、その両方を行う機会が無限にあります。これまでの旅は素晴らしいものでした。また、私は自分のことをチーフ・マム・オフィサーと呼んでいることを誇りに思っています。この仕事はとても難しく、お金にはなりませんが、最もやりがいのある仕事です。

我が家はデータの専門家集団なので、夕食時の会話はデータ分析ツール、データ分析基盤、データモデリング、パフォーマンスチューニングなど、データに関連する話題で盛り上がります。私の子供たちは、データベースとは何か、クエリにインデックスを付けるとはどういうことか、を知っています。そして、スーパーヒーローに関連するすべてのことについて、息子たちは私にとっての専門家でした。私がSnowflakeでスーパーヒーローのデータ保管庫を作ろうとしたときも、彼らはその好奇心、オープンマインド、そして率直さで毎日私に教えてくれました。

Baseline

私のDBA時代には、データベースに変更を加える前に必ずベースライン（基準値）を作成し、変更前と変更後を簡単に比較することができました。では、現在のデータスペースの状況をベースラインに設定してみましょう。

どのチームも、ミッションステートメントに似たようなものを掲げていると思います。データチームのミッションは、高品質で信頼性の高いデータとインサイトをできるだけ早く「データを使う側」に提供し、製品や顧客体験を向上させるための製品を提供することです。

では、ここでもうひとつのベースラインをご紹介しましょう。

私たちはデータに溺れています。2018年、インターナショナル・データ・コーポレーションは、2025年には175ゼタバイトのデータがあるだろうと予測しました。実際に調べてみると、1ゼタバイトには21個のゼロが付いています。2020年、IDCは「今後3年間で、過去30年間と同じ量のデータが生成される」と発表しました。すでに2021年の終わりに差し掛かっています。そして、皆さんもそのデータの増加を実感しているのではないでしょうか。

そこで、ここでちょっとしたことをお伝えしたいと思います。テクノロジーは指数関数的に変化しますが、組織は対数関数的に変化します。そして、この2つの変化のギャップは時間とともに広がっていきます。

この1つのベースラインは、毎年、このデータ・ランドスケープ・ドキュメントに反映されていますね。最後は2021年ですね。前の年のスナップショットを追加しています。ここ数年でデータランドスケープがどれだけ成長したかがよくわかると思います。

Legacy

さて、先程の説明したものが私たちのベースラインでした。さて、ここからは、Legacyについてお話しましょう。

Legacyなデータシステムというと、オンプレミスのサーバーや、Oracle SQL Serverなどを想像する人が多いのではないでしょうか。Teradataでは、1日に1回しか実行されないETLジョブがあり、何時間もかかります。これらのジョブは非常に複雑です。依存関係もたくさんあります。

あなたは、データウェアハウスチームがデータウェアハウスをN回目に構築しようとしているところを想像しているでしょう。なぜなら、以前のバージョンはすべて、もはやビジネスをサポートしていないか、変更するには複雑すぎるからです。

しかし、これはLegacyのデータレイクも同様です。データレイクにデータを書き込むのは非常に簡単ですが、データレイクからデータを取り出すのは非常に困難です。なぜなら、データレイクは特定のエンジニアリングスキルを要求し、一般的にガバナンスが欠けているからです。

だから、Legacyはとても面白い作品なのです。名詞として使われる場合、それはポジティブなものです。祖母が私にたくさんのお金（遺産という意味でのLegacy）を残してくれた、それは良いことです。

しかし、コンピュータの世界で形容詞として使われると、それはネガティブな意味を持ちます。捨てたくても捨てられないアプリケーションやシステムがあることを表しています。データの量、速度、複雑さは指数関数的に増加し、ツールは光の速さで変化し、企業は顧客のニーズに迅速に対応しようとしています。過去2010年、5年、1年の間に構築したものはすべてLegacyです。

だからこそ、みんなで深呼吸をしましょう。そして、声を大にして言いましょう。

「I am building legacy right now. 」

あなたはどうかわかりませんが、私は真実を受け入れたことで気持ちが楽になりました。

わかったけど、それでどうするのか？

Legacyのネガティブな意味をポジティブな意味に変えて、後に続く人たちにとって価値のある、誇りに思えるものを作るにはどうしたらいいのでしょうか。

Legacy to be proud of

一度にすべてを追いかけることはできません。だからこそ、現実的なアプローチで、重要なことに集中していきましょう。

「人生で唯一不変なものは変化である」という言葉を聞いたことがあると思います。

ビジネスにおいて唯一不変なのは、顧客志向であるということです。これは、データシステムを構築する際に、データ量や技術、方法論にかかわらず、常にそうでした。お客様が重要なのです。お客様のことを知りましょう。お客様がどのように製品を使用しているかを知り、お客様に喜んでいただけるような製品を作り、改善していきましょう。

Learn

「巨人の肩の上に立つ」というのは、私の好きな比喩のひとつです。これは、先人たちが得た理解を利用して前進することを意味します。

データの世界では、何十年も前から使われているパターンや方法論がたくさんあります。しかし、それらを古いものと決めつけてはいけません。車輪を再発明するのは時間と労力がかかりすぎ、正直なところあまり価値がありません。

エレノア・ルーズベルトが言っていたと思いますが、私たちは自分ですべての間違いを犯すほど長くは生きられません。しかし同時に、これまでそうしてきたからといって、今やるべきことが正しいとは限りません。私たちは、新しい技術や方法論に心を開かなければなりません。

私はよく本を読みます。読んでいる内容が理解できないことも多々あります。しかし、最初に理解できなかったからといって、それを理解するために時間や努力をする価値がないということではありません。古いものと新しいものを融合させることで、お客様により良いデータ製品を提供し、より早く前進することができると思います。

Choose wisely

本当は、スライドのタイトルを戦略的に選びたかったのですが、ヨーダがそう言ったわけではないので、「Choose wisely」としました。

10〜15年前、私たちはソフトウェアの新バージョンがリリースされるまで4年待たなければなりませんでした。そして、選択肢は本当に少なかったです。多くの場合、カスタムツールを作ることに意味がありました。家の中では、「作る」と「買う」は別の視点で考えます。

今は、市場に出回っているツールの数が多すぎます。データツールの状況を覚えていれば、様々な成熟度のオープンソースや商用ホスト管理ツールが混在していることがわかるでしょう。チームの時間は貴重であり、お客様に有効な価値を提供し、会社に競争力をもたらすプロジェクトに費やすべきです。

結局のところ、市場に出回っているツールで簡単に解決できる問題に対して、カスタムソリューションの構築やサポートに時間を費やすことは意味がありません。私たちは、データエコシステムの中で、現在最も苦痛を与えているコスト、またはビジネスに最大の価値をもたらしてくれる分野を選び、現在のソリューションがどのようなものであるかを評価し、そのサポートを継続すべきか、または別のツールを購入すべきかを判断しなければなりません。例えば、ビジュアライゼーションのためのソフトウェアを作成するビジネスを行っていない企業であれば、市場に出回っていてツールに組み込まれているソフトウェアを選べばよいでしょう。

しかし、私たちは、すべてを約束するツールに注意しなければなりません。それぞれのツールは特定の分野に特化しています。そして、他の分野にも手を広げるかもしれませんが、その機能は不足していることが多いのです。また、思い入れのあるツールを買い換えるのはとても大変です。

こんな話もあります。今年の初め、我が家では冷蔵庫の買い替えを検討していました。すると、コーヒーメーカーが内蔵されているモデルがあったのです。あなたはどう思うかわかりませんが、私には信じられないほどクールに聞こえました。しかし、調べてみると、この冷蔵庫ではひどいコーヒーしか作れないことがわかりました。あなたはおそらく笑っているでしょうし、何が悪いのかと思っていることでしょう。その通りです。冷蔵庫でおいしいコーヒーが飲めるとは思えませんよね。その通りです。だから、食べ物を冷やしておくための冷蔵庫は置いておいて、美味しいコーヒーを飲むために高級なコーヒーメーカーを買おう、となります。

オンプレとクラウドについてですが、実は私はクラウドを導入するのが遅かった一人です。私が初めてクラウドに移行したのはわずか4年前です。最初はとても躊躇しました。クラウドがどのように機能するのかを学び、問題やソリューションについての考え方やアプローチを変えるためには、それなりの努力が必要でした。シームレスな移行ではありません。また、クラウドが提供するものを評価することはほとんど不可能です。オンプレミスの考え方を持ち込めば、どちらか一方のアプローチというわけにはいきません。

市場には、オンプレミスとクラウドソリューションの両方のハイブリッドエコシステムを実行できるツールがますます増えています。企業にとって短期的にも長期的にも最も価値のあるものは何か、そして法的要件を満たすものは何か、ということを考慮して決定する必要があります。

VSクラウド…私はクラウドを羨ましいと思うと同時に、クラウドに勝とうとしている人たちを尊敬しています。大手のクラウドプロバイダーはどこも素晴らしいオプションを提供しています。今、この選択を迫られているチームは、自分たちのビジネスニーズが何であるかを把握するために宿題をしなければなりません。あえて言えば、将来はマルチクラウドになると思います。

Keep it Simple and be Agile

ビジネスニーズは単純ではありませんし、他のデータシステムも必要に応じてサポートしようとはしません。しかし、ニーズやシステムが複雑であるにもかかわらず、エンジニアリングをしすぎたり、ソリューションを複雑にしすぎたりしないよう、意識的に選択する必要があります。

これは最も困難なことのひとつです。しかし、最もシンプルなソリューションは、ほとんどの場合、最良のものです。また、サポートを受けやすくなるソリューションでもあります。

忘れてはならないのは、私たちは後世の人が価値を見出してしまうようなLegacyを残すべきではないということです。データエコシステムを機能的に定義されたコンポーネントに分割することで、他のコンポーネントに影響を与えることなく、各コンポーネントのモダナイゼーションや改善が容易になります。しかし、お客様に価値を提供するまでに時間をかけすぎては、お客様を失うことになりかねません。私たちはリスクを取り、早く失敗しなければなりません。悪い遺産を残さないためにも、周りの変化に合わせて、軽快に行動しなければなりません。

Break Down Silos

モジュラーシステムを構築するということは、サイロを作ることではありません。データは、組織全体で共有されて初めて価値を持ちます。しかし、データを共有するだけでは十分ではありません。私たちは、データの適切な使用を保証し、誤解や解釈の違いを避けるために、FAIRデータ原則に従わなければなりません。

Govern and Protect

私たちは顧客のデータを貴重な資産として扱わなければなりません。そして、それを自分のもののように扱わなければなりません。祖母が1967年製のコルベットを残してくれたとしても、鍵をかけたまま路上に放置したりはしません。

データガバナンスは、すべてのデータエコシステムの最優先事項です。データを負債にしてはいけません。お客様のデータを自分のデータのように扱っていることがわかれば、お客様は私たちの会社やブランドを信頼してくれます。

さらに、これらの理由だけでは不十分な場合、コンプライアンスや規制の問題が山積みになっています。だからこそ、私たちはデータを管理し、保護しなければならないのです。

Data is team sport

データチームはデータの管理者です。しかし、ビジネスパートナーはデータを所有し、生成し、使用し、最もよく知っている者です。彼らをデータ分析のプロセスに含めることは、私たちが作るデータ製品が効果的で有用なものであることを保証するために、非常に重要です。

もうひとつお話をしましょう。数年前、私の家族が夕食を食べながら、その日に起こったことをお互いに話していたときのことです。当時6歳か7歳だった子供の一人が、学校で「最大の哺乳類の法則」を習ったことを話してくれました。そして、すぐに一番大きな魚は何かと聞いてきました。彼はまだ親が何でも知っていると思うほど若かったわけなので、それはとても信じられないことです。とにかく、私たちは誰もそれが何であるかを知りませんでした。そこで私は、夕食が終わったら、携帯電話で調べてみようと言いました。すると彼は、「ママ、Alexaに聞いてみたら？」うちのキッチンにはAlexa対応のデバイスがあって、買い物リストを管理するのに使っています。そして、Alexaに尋ねたところ、Alexaが答えを教えてくれたのです。

彼の要求に対する私の解決策は間違っていませんでしたが、彼の解決策は同じ価値をより早く提供しました。しかも、はるかに少ない労力で。私のソリューションは、私が長年慣れ親しんできたことに基づいていましたが、彼のソリューションには同じバイアスがかかっていませんでした。

様々な経歴や経験を持つ人たちが力を合わせて、知識を渇望するチームを作ることで、より良いデータ製品をより早く作ることができるようになります。

組織内のデータコミュニティの構築に力を入れる必要があります。組織全体のチームと協力してニーズを理解し、同じ言葉を話せるようになり、インサイトを自由に共有できるようにするのです。これは、私たちが変化を受け入れやすくするための基盤であり、データに対する需要の増加に対応するものです。

私たちの強みは数です。データの見方や分析方法など、データの持つ力や価値を教えるデータリテラシープログラムを通じて、すべての人に力を与えます。

まとめ

あなたのビジネスがどこにあるのか、そのギャップが大きくなるのを待っていてはいけません。さらに詳しく言えば、あまりにも広大な進化論的アプローチは、短期間しか機能せず、取り除くことのできないLegacyから抜け出せなくなってしまいます。革命的なアプローチは、痛みを伴い、ビジネスを混乱させます。

すべてを一度にやろうとせず、変化を受け入れて現実的なアプローチをとりましょう。そして、重要なことに優先順位をつけます。そして、チームとして働くことで、ハイブリッドなアプローチをとり、自分たちの製品だけでなく、後に続く人たちが喜んで受け継いでくれるようなLegacyを築くことができるのだと思います。

質疑応答

データ分析ツールのリプレイスに伴うコスト（特に学習コスト）を克服する方法は？

Veronika氏「新しいツールを学ぶという意味では、再学習は必要だと思います。今のところ、どれも似たようなものなので、私としては、1つのツールを覚えてしまえば、次のツールに移るのは簡単だと思います。だから、学習コストについては心配していません。」

司会「すでにデータに精通している人がいれば、2つ目や3つ目のデータツールを使いこなすのは比較的簡単ですが、初めてのデータツール（に慣れるのは）は本当に最悪です。」

Veronika氏「ツールはどんどん簡単になっており、参入障壁は低くなっています。そのため、実際に学ぶことは、かなり簡単になっています。」

司会「私たちは皆、より意味のあるデータ分析を行うために、そのように努力していると思います。しかし、私たちが克服しなければならない大きな障壁もまだあると思いますよ。あらゆる技術レベルのすべてのユーザーのために、効果的に学べる方法が構築されているかどうかはわかりません。」

Veronika氏「そのためには、データリテラシーを高めるプログラムが有効だと思います。私が見てきた中では、SQLのトレーニングをする人もいれば、ツール自体のトレーニングをする人もいます。ツールについてのトレーニングを受ければ、興奮して喜んで学ぶユーザーが現れます。一方で、ビジュアル化してくれればいい、エクセルでデータをくれればいい、というユーザーもいます。それはそれで構いません。」

司会「私はこの問題をかなり注意深く見てきました。そして、データを利用する人にとって、データを使いたいと思うパラダイムがいくつかあることに気づきました。スプレッドシートは非常に一般的なパラダイムであり、次に、データ探索の宣言型シーケンスに焦点を当てたグループがあります。そして、非常に手続き的でコードベースのデータサイエンスのアプローチをとるチームもあります。私たちが抱える課題は、それぞれが求めているものが全く違うということです。そのため、すべての人にサービスを提供するのは、本当に難しいことなのです。」

データ分析チームのメンバーがスピード感を持って取り組めるようにするには、どんなことに気をつければいいか？

Veronika氏「それは業界によると思います。私が気付いたのは、若い企業ほどデータモデリングを失っていることです。彼らはローデータを追求するだけです。それは素晴らしいことですが、綿密なデータモデリングを行うことで、データガバナンスが実現します。これは非常に大きな意味を持っています。」

司会「私は、データリテラシーとは、誰もがデータの専門家でなければならないというものではないと思っています。それよりも、データの重要性と関連性、そしてその利用方法について、人々の意識を高めなければなりません。そして、彼らが超絶的な技術を持っているわけではないことを理解しなければなりません。」

データガバナンスってどうすればいいの？

Veronika氏「素晴らしいかつ難しい質問です。数年後にはしっかりとした答えが出ることを期待しています。私たちは一歩ずつでも始めています。まず、すべてのソースシステムを文書化しましょう。データがどのように流れているのかを理解しましょう。使っているツールによっては、ある種のリネージを与えてくれるものもあれば、そうでないものもあります。できれば人を雇って、できなければスプレッドシートを用意して、とにかく文書化して、人と話して、頭の中にある知識をある種の電子文書に落とし込むのです。しかし、これは解決が難しい問題です。この問題を解決するには長い時間がかかると思います。」

データのサイロ化を解消するためのヒントがあれば教えてほしい

Veronika氏「私のアドバイスとしては、まず第一に、そのサイロを所有しているビジネスパートナーと率直に話し合うことが挙げられます。そして、『私はデータプラットフォームの真ん中に座る』と提案します。つまり、ビジネスパートナーにデータエンジニアリング、データ統合、データガバナンスのためのモデリングのサポートを提供することができるということです。その結果、ビジネスパートナーは、私がデータを取得して分析基盤に置くことを許可してくれます。また、データセットを充実させるために、他のデータをビジネスパートナーに送り返すこともできます。」

司会「データサイロを崩すには、常にコミュニケーションを取り、ビジネスのあらゆる部分に価値を提供すること以外に、良い答えはないと思います。それだけで、データサイロの解消につながります。」

ディシジョンインテリジェンスについてどのように考えている？

Veronika氏「これもまた、漠然とした表現ですね。つまり、インサイトドリブンというのは、私にとっては集中力を高めるためのものでしかなく、今のところ良い答えはありません。たくさんのデータがあるので、まずはどんなデータがあるのかを確認して、しっかりと理解しましょう。そして、そのデータから価値を引き出すために、より自動化された方法で助けてくれるツールを導入することになると思います。そのためには、データサイエンスや機械学習が非常に有効だと考えています。」

数年ごとにデータ処理の方法を再発明しているように思える。どうすれば、同じことを繰り返さず、何度も何度も取り替えることができるか？

Veronika氏「私たちは再発明しているとは思いません。改良しているのだと思います。だからこそ、『巨人の肩の上に立つ』ということなんですね。もし、あなたが繰り返しているなら、おそらく何が起こっているのか理解していないでしょう。2つの側面があります。トラディショナルデータウェアハウスの側は、データレイクとは無関係だと思っています。一方、データレイク側は、『DWHと統合することでベストなものを作る』という決定を下すことができると考えています。再構築や再発明をする必要はないでしょう。しかし同時に、進歩も必要です。私たちは前に進んでいます。失敗しても、そこから学んで、より良いものを作っていくのです。」

司会「私たちは偉大なものに向かって反復していかなければならないと思っています。それは間違いありません。」

おわりに

題名からはどのような話か想像できなかったのですが、現代のデータ分析において、非常に大事なことがシンプルに詰め込まれているセッションでした。やはり、データ分析は色々な人を巻き込まないと実践できませんね。