[レポート] Rising 未来のデータサイエンス! データを活用することで見えてくる、新たな顧客のインサイト、新たなサービス、製品開発について考えよう! #SnowflakeDB #SnowdayJapan
2023年02月14日(火)、ANAインターコンチネンタルホテル東京、ならびにオンライン配信のハイブリッド形式でSnowflakeのイベント「SNOWDAY JAPAN」が開催されました。
当エントリではその中で、ブレークアウトセッションとして開催された「Rising 未来のデータサイエンス! データを活用することで見えてくる、新たな顧客のインサイト、新たなサービス、製品開発について考えよう!」のレポートをお届けします。
セッション概要
当エントリで扱うレポートのセッション概要は以下の通りです。
Rising 未来のデータサイエンス! データを活用することで見えてくる、新たな顧客のインサイト、新たなサービス、製品開発について考えよう!
[登壇者]
・KT 氏(Snowflake株式会社 マーケティング本部 シニアプロダクトマーケティングマネージャー兼エヴァンジェリスト)
・高田 雅人 氏(Snowflake株式会社 セールスエンジニアリング本部 シニアセールスエンジニア)
・松倉 友樹 氏(株式会社マインディア 取締役 CTO)
・藤 俊久仁 氏(株式会社truestar 代表取締役社長)
・中村 正樹 氏(メディカル・データ・ビジョン株式会社 取締役)
[セッション概要]
データコラボレーションって一体どう行われるの?!
データを活用して、これまでにない新たな顧客体験や、データをもっと効率的に分析したい!勝率の高いユニークな打ち手を考えたいみなさん!朗報です!ぜひぜひ以下のセッションに参加登録ください。
会場限定「Rising 未来のデータサイエンス!データがモビライズされた世界における新時代のデータサイエンスの在り方を一緒に考えよう」データに対する考え方から、明日からすぐに実践できるデータ活用方法まで、Snowflakeのスペシャリストたちと、データプロバイダーのプロが、わかりやすくお届けいたします。
セッションレポート
こちらのセッションは、Snowflakeのミッションと概要の説明、Rising未来のデータサイエンスコンテストについてとSnowparkのデモという大きく3部構成からなる2時間越えのモリモリセッションでした。
データがモビライズされた世界へようこそ 〜 Snowflake Overview
- データをモビライズするとは?
- 私たちはフォン(電話)をmobileしたことから端を発するスマートフォンを持ち歩くだけでさまざまなものを欲しい瞬間に手にすることができている
- 電話のみならず、カメラ機能や地図アプリを簡単にお手軽にいつでも使うことができる
- つまり私たちは地図やカメラや電話がモビライズされた世界に生きている
- 私たちはデータがモビライズされた世界に生きているか?
- 蛇口をひねれば水が出てくるように、いつでもどこでも欲しいときに必要なデータを手に入れられる世界でしょうか?
- 残念ながら現在はまだデータはモビライズされていない
- データがモビライズされた世界を実現するためにSnowflakeは革新的な新技術を生み出し続けている
- Snowflakeは優れたプラットフォームを生かして、データ分析基盤にとどまらないさまざまなアプリケーションやサービスを提供できるデータクラウドとしてのグローバルネットワークを提供している
- データ分析の現場では構造化データだけではなく、半構造化データや非構造化データといったデータベースでは扱いづらいデータを素早く分析できる形に整える必要が出てきていたり、パブリッククラウドとセルフサービスBIの登場でより多くの人がデータをより新鮮な状態で使用したいと願うようになった
- Snowflakeは7つの柱でデータ分析の現場が抱える課題を解決し、さらにデータクラウドへとイノベーションを起こした
- ユーザーから要求されるプラットフォームの要件はとても厳しく、データエンジニアはずっと頭を悩ませてきた
- Snowflakeはデータをほしい時に取り出せる環境を提供
- クラウドにあるデータだけでなく、オンプレミスやApache Icebergにあるデータからもテーブルを作成できるので、容易にデータを一箇所に集約することが可能
- 各ワークロードごとにコンピュートを立てることができる
- データウェアハウスを利用する人たちがたくさんいてもパフォーマンスを維持することができる
- 従量課金なので、サブスクのような無駄がない
- アプリケーションエンジニアもSnowflakeのデータを見て会話をすることができる
- データウェアハウスやデータレイクに止まらない、まさにデータクラウド
- 従来のデータ共有はデータの転送という意味合いの方が近かった
- 共有したデータを共有先が適正に管理してくれているのかという不安
- ストレージとコンピュートが分離しているので、ストレージの一部の権限を渡せば共有先は自分のコンピュートを使用して自分たちのデータをクエリできる
- アプリケーション開発にイノベーションを起こす
- 2014 ライブデータ
- 2018 データシェア
- TODAY アプリケーション
- Snowflakeにログインをするだけでアプリケーションが開発できてしまう
- アプリケーションはコードの勉強までの敷居は低いが、開発環境の整備の敷居が高い。これにより、より多くの人がアプリケーションを開発できるようになる
Rising未来のデータサイエンスコンテスト
データをコラボレーションする力とそこから得られるインサイトから生まれたビジネスのアイディアを競うコンテストです。
新時代を担うコラボレーションの力を引き出すデータサイエンティストを育成するコンテストを開催!!
Snowflakeマーケットプレイスで提供されるデータを分析・活用し、新しいビジネスのアイディアを競う。
目的
- データがモビライズされた世界で活躍する新たなデータサイエンティストの育成
- 外部データの価値をよりよく多くの人へ届け、コラボレーションの必要性を広く伝える
参加条件
期間:2023年3月1日〜2023年5月下旬
対象者:
- これからデータ分析を自らの武器としたい方
- 特に社会人1年〜5年
- 学生
- 個人またはチームでの参加が可能
ルール
- 個人またはチームでの参加が可能
- チームの場合5名を上限。メンバー編成は各自で行う
- コンテスト提供データの用途外利用の禁止(重要)
- データのダウンロードの禁止
- 全てSnowflake上で行っていただく
- ※ 協力パートナーが提供するツールを経由して操作するのはOK(ただし直接接続に限る)
- コンテスト参加規約とデータプロバイダーごとの規約に従って利用する
- 分析結果の無許可発信(SNS投稿など)の禁止
その他詳細は3月1日以降に参加規約をご確認ください
SQLやPythonに自信がない方も参加できるようなあんなツールやこんなツールも無償で使える可能性が!!ニョキニョキ
コンテストに提供されるデータ
このハッカソンのためにデータを提供する協賛企業の方々とモデレーターのKTさんとでパネルディスカッションがありました。
当日発表されたハッカソンで提供されるデータをご紹介します。
Prepper Open Data Bank公開データ
- truestarがマーケットプレイスで提供している国勢調査などの全てのデータを提供
- 新たに7つの市区町村別データを追加予定(3/1に間に合うかな?)
- 各自治体のホームページからデータをダウンロードしてデータベースでクエリを叩けるように加工るすつらみを軽減します
MINEDS for EC DATA
- マインディアが提供している MINEDS for EC DATA のうちフードデリバリーの購入推計データを提供
- 期間:2021年-2022年
- 地域:東京23区・大阪市・名古屋市
- ユーザー年代:20-49歳
- 対象サービス:Uber Eats、出前館、Wolt、menu、マクドナルド、ドミノ・ピザ、ピザハット、ピザーラ
- 公開データの詳細は3月1日に発表
medical.data.vision
- メディカル・データ・ビジョンが提供する国内最大規模の病院データ及び病院でお金の発生する保険対象のすべてのデータ
(登壇した中村さんは紹介の際に「医療データを出してどのように活用するのかというのかと言うのはハードルが高い気がしている」とおっしゃっていましたが、後述するパネルディスカッションではさまざまなアイディアを出されていたので、ぜひ参考にしてみてください!)
SCI SRIデータ
- インテージが提供するSCI・SRI+データを提供
熱い想い...
弊社保有のデータと他社様のデータを組み合わせ、データサイエンスの力と若い方々の発想力、そのシナジー効果により、新しいインサイトが発見されることに大いに期待しています
このほかにも、ウェザーニュースが天気データを提供されたり、完全人力でテレビの内容とCMの内容を書き起こしているエムデータがテレビのメタデータを提供される予定とのことでした。まだまだ3月1日の発表まで目が離せません!!
外部データコラボレーションによるビジネス革新の可能性 〜Snowflakeマーケットプレイスデータプロバイダーによるパネルディスカッション
お互いのデータを掛け合わせてどのような分析をしたいですか?
- 中村 正樹さん(メディカル・データ・ビジョン)
- 病気のデータ x 天候データ
- 人の行動 x Covid19のデータ
- 地域的にヘルスケアに取り組んでいる自治体があるので、それと購買行動の変化が出ているのかをみてみたい
- 藤 俊久仁さん(truestar)
- 地域特性 x 医療データ
- ECデータ x リアル購買データ
- ECデータを先行資料としてリアル購買データを予測できないか(他社データを見て自社に生かす)
- 松倉 友樹さん(マインディア)
- Covid19から現在の行動データを見てどんな行動は回復していて、どんな行動が回復していないのか
- 現状を分析して未来予測をする
- (ChatGPTに聞いてみた)
- フードデリバリーx 国勢調査(年収とか性別職業特性)
- 医療 x 国勢調査(疾患と治療の地域特性)
- フードデリバリーと健康診断
- KTさん
- 多くの協賛していただける会社のおかげで無限大の可能性が生まれそう
- 分析あるあるの、分析してみて面白かったねで終わらせないで分析結果からぜひアクションを起こしてほしい
データを掛け合わせてどのようなビジネスを創出しますか?
- 中村 正樹さん(メディカル・データ・ビジョン)
- 病院の働き方改革のサービス
- 医療現場の労働環境は深刻なものがあるので、そこを改革できるようなサービスを
- 松倉 友樹さん(マインディア)
- 自分の専門知識とデータを掛け合わせるのがいい
- 松倉さんはアプリケーション開発に長く携わってきた中で、ChatGPTの頭が良すぎることに触れ、人間の記憶の仕方とChatGPTなどの機械学習が出すデータの信ぴょう性をどのように判断するのかが興味があるそう
- 藤 俊久仁さん(truestar)
- 日経新聞の業界天気予報のミクロ版(人がやらなくてもいい作業をデータで置き換えてお金を発生させる)
- 1週間後のこの商品が売れるというような、大きなビジネスに向けたものではなく小回りのきく小さなビジネスに向けたサービス
- 緊急地震速報はあまりにも準備期間が少ない情報でできる対応は限られてくるが、スーパーだと明日売れるとわかっている商品のチンれるは対応している
- 人が行なっていることを積み重ねたデータによって置き換えられないか
- KTさん
- 商店街から大型スーパーの時代になって、ネットの力でまた今度はすごく小さなお店が出てきた。それも地域を限らないものなので、小さくて機動力のあるビジネスに向けてサービスを提供するのはいい。
データがグローバルネットワークで繋がったらどんな世界になるのか?
- 藤 俊久仁さん(truestar)
- 戦略を考える人材が求められるだろう
- その戦略もAIができるようになるとだろう
- 意思決定や責任を取るのが人間のやることになる
- 分析に時間が取られて意思決定に時間が避けていないのが現状
- もっと高次元なところに人間が時間を割けるようになるといい
- ChatGPTは1年前のデータ
- リアルタイムデータになる日れて推論やレコメンドの精度がどんどん高くなる
- その時代にでも人言のやることはなんなんだろうと考えてしまう
- 松倉 友樹さん(マインディア)
- ChatGPTにできないことは、自分にデータを与えること。そのデータが重要
- データの種類やより高いインサイトに価値がある
- AIと人間の線引きは難しいが、その先もAIがカバーする時代が来るだろうと考えると、人間は何をするのか
- 今は静的データだけだけど、ストリームデータにも対応したらどうなるんだろう
- 中村 正樹さん(メディカル・データ・ビジョン)
- 自分はどのように生きたいか?どこで暮らせば幸せなのか?
- 医療データは提供してもらうのが難しい。でも医療データは生活に一番近いので、そのデータがあれば自分たちの生活が変わると思う
- KTさん
- 筋トレの正しい情報をパーソナライズしてもらえてらより効率的に鍛えられる。またそのトレーニングデータを返せばデータはより深まって効率的にトレーニングできるようになりそう
コンテストへ向けて一言
- 藤 俊久仁さん(truestar)
- Snowflakeが用意したデータ分析を簡単にできる環境に入って良さを感じてほしい
- 自分たちでは運用できないと思っていたところに、Snowflakeがとても簡単にデータを共有できる場を提供していた
- 松倉 友樹さん(マインディア)
- ソフトウェアエンジニアだったので、最初はRDBを使用しようと考えていたけれでも時代に合っていないのでSnowflakeを使用したらすごく良かった。Snowflakeのサービスの全てがいいのでベンダーロックインされている状態。でもこれはいいロックイン
- 今後もSnowflakeのプラットフォームの上で活動していこうと思っている
- Snowflakeを使ってアウトプットしてほしい
- 中村 正樹さん(メディカル・データ・ビジョン)
- 分析カッケの解釈の誤りも出てくると思うが、それを受け入れる姿勢も持ってほしい
- ぜひ使用したデータに関するフィードバックをしてほしい
- 1回目をやったら、2回目にさらにいい状態のデータを出せると思うので続けてほしい
新たなプラットフォームで体感するデータサイエンスの新時代 〜Snowparkデモ自己学習リソースのご紹介
Snowparkを一言で言うとクエリトランスレーターと答えている(PythonをSQLに変換している)
安全かつ最適化された処理:データを外部に出さないと言うのが一番いいところ
- トレーニングにはSROCを、予測/変換にはUDFを使用する
- UDFにモデル/パイプラインをロードする時には「cachetool」を使用する
- 予測/変換にはベクトル化されたUDFを使用する
- 計算量の多い変換はマテリアライズ化する
- トレーニング/検証/てストデータセットをSnowflake内にテーブルとして保存する
自己学習リソース
まとめ
Snowflakeのマーケットプレイスにあるデータやパートナー企業のツールを使用してデータ分析を行なって新たなビジネスを創出するというコンテストの開催という大きなニュースが発表されました。
パネルディスカッションではデータシェアの可能性にワクワクしつつ、データ分析とテクノロジーが発達したその先の世界に私も思いを馳せて白目を剥いてしまいました。どんな施策やビジネスが生まれるのか、とても楽しみです。
Snowparkのデモから内容が薄すぎて本当に...すみません。。。全然ついていけなくて・・・・・