[レポート]DAY2オープニング&プロダクトキーノート:テクノロジーとイノベーション #SnowflakeDB #DataCloudWorldTour
この記事は、2022年10月25~28日開催のDATA CLOUD WORLD TOUR JAPANのセッション『テクノロジーとイノベーション』に関するセッションレポートです。
セッション概要
概要
- オープニング
エバンジェリストのKTが、1日目の振り返りとともにデータクラウドで実現できる未来について語ります。 ゲストに厚切りジェイソン氏を迎え、データ活用を取り巻くテクノロジートレンドを考えていきます。
- プロダクトキーノート
アナリティクスやコラボレーションの在り方を再定義したSnowflakeは、アプリケーション開発にも革命を起こします。イノベーションをさらに加速させ、すべてのデータにアクセス可能、すべてのワークロードに対応、好みの言語を使ってプログラム可能なプラットフォームを創ることで、世界のデータをモビライズするSnowflakeが打ち出す画期的な新機能と、それらを活用して訪れる未来の姿を一緒に体験しましょう。
登壇者
- Snowflake株式会社 シニアプロダクトマーケティングマネージャー兼エヴァンジェリスト KT 氏
- お笑い芸人/IT企業役員 厚切りジェイソン 氏
- Forbes JAPAN Web編集長 谷本 有香 氏
オープニング
- データを自由自在につかって新しいアイデアを実現していくことが求められている、それが出来るのがデータクラウド
- 実際にSnowflakeではどう実現していくのか、技術の面からDAY2ではお伝えしていく
プロダクトキーノート
- Snowflakeのイノベーション
- 2014年:アナリティクスの革命
- 2018年:コラボレーションの革命
- 現在(2022年):アプリケーション開発の革命
データクラウドを支える7つのイノベーション:すべてのワークロードに対処する
- Snowflakeの基本アーキテクチャ
- データストレージとコンピューティングリソースを分離して、各ワークロードに割り当てて、超高速にデータにアクセス出来る。リソースの競合も無く、ワークロード別にスケーリングできる
- 新発表のワークロード:サイバーセキュリティ
- セキュリティデータレイクを構築し、各サードパーティ製品との連携も実現
- 新発表のワークロード:ユニストア
- トランザクションデータに対して、リアルタイムに分析を行うことが出来る。これを実現するのがHybrid Table
データクラウドを支える7つのイノベーション:すべてのデータをいつでも利用可能にする
- データサイロを解消し、すべてのデータにアクセスできるようにすること
-
「すべてのデータ」とは
- あらゆるタイプ、あらゆるサイズ、あらゆるソース、全てのデータに一度にアクセス出来るようになること
- Snowflakeから、オンプレミスやプライベートクラウド上のデータに対して外部テーブルとして参照できる機能を発表
- Apache Icebergを参照するIcebergテーブルを発表
データクラウドを支える7つのイノベーション:ガバナンスの確保
-
データセキュリティとデータプライバシーを、無条件で確保する
-
ガバナンス
- オブジェクトのタグ付け、ロールベースのアクセス制御、ダイナミックデータマスキングといった機能によりガバナンス制御できる
- 財務ガバナンスのために、リソースグループという機能を発表。Snowflakeのリソースごとにグループ分けし、予算管理と超過予測できるようになった
データクラウドを支える7つのイノベーション:グローバルアーキテクチャ
- 30以上のリージョンにまたがって、Snowflakeは提供されている
- 独自のSNOWGRIDテクノロジーにより、全てのクラウドやリージョンにおいて、1つのSnowflakeプラットフォームを利用できる
- クロスクラウドでのフェイルオーバー対応も可能
- パイプラインのレプリケーションも発表(プライベートプレビュー)。これにより、データの損失を防ぐだけでなく、実行しているデータパイプラインが稼働停止することも防げる
データクラウドを支える7つのイノベーション:セルフマネージド
- セルフマネージド型の機能を多数提供している。一度コマンドなどで実行するだけで、Snowflakeが裏でパイプラインを動かしたり最適化を行ったりしてくれる機能が豊富
データクラウドを支える7つのイノベーション:開発作業とデータを結びつけるプログラマビリティ
- Snowparkを用いることで、開発者とデータを直接結びつけることが出来る
- Java、Scala、Pythonを用いた、複雑なパイプライン開発、アプリケーション開発を実現
- 多くのパートナー企業も、Snowpark for Pythonをサポートしている
デモンストレーション
- デモシナリオ
- ある架空のスポーツ用品店があったとして、広告にいくら使えば効果的なのか、ROIを予測するモデルをデータサイエンティストが構築することを考えてみる
- 何も設定せずに分析対象のデータにクエリを発行すると、IPアドレスなどの機密情報が見えてしまっている。このデータに対し、タグベースマスキングポリシーを適用してみる
- タグベースマスキングポリシーを適用することで、データ管理者にはオリジナルのデータを見せて、データサイエンティストなどのデータ利用者にはマスキングをかけて見せる、ということが出来る
- Snowpark for Pythonを用いたPythonコードが実行されると、Snowflake上でSQLに変換された上で実行される
- Snowpark for Pythonを使うことで、モデルのトレーニングから推論まで完結することが出来る
-
ローカルで開発した機械学習モデルを構築するPythonコードを、Snowflakeのストアドプロシージャとしてデプロイしてみる
- ユーザー定義関数を使うことで、作成した機械学習モデルを使った推論処理を行う関数を作ることが出来る
-
ユーザー定義関数にすることで、SQLでも呼び出すことが出来る。つまりSnowflakeの画面上からも予測ができる
- また、SQLやPythonに馴染みがない方向けにも、Streamlitを用いたアプリケーションを提供することで、構築した機械学習モデルを用いた予測をGUIベースで直感的に使うことが出来る
- Streamlitについては、今回のデモではローカルから実行したが、いずれはSnowflake上に統合されてアプリケーション開発~アプリケーションの提供ができるようになる見込み
データクラウドを支える7つのイノベーション:マーケットプレイス
- マーケットプレイスとは
- Snowflake上のデータやアプリケーションを社外に対して販売し収益化することが出来るプラットフォーム
- 現在260社のプロバイダーが1300以上の製品を提供中
- ネイティブアプリケーションフレームワーク
- Snowflake上で直接アプリケーションを開発できるだけでなく、デプロイから提供まで行うことができるフレームワーク
- お客様の事業を支えるためのデータ・サービス・アプリを、Snowflakeという1つのプラットフォームで実現可能です
KT氏と厚切りジェイソン氏の対談
- ビジネスにおいて、がむしゃらに飛び出すのはとても危険、そのためデータを用いて判断した上で行動することは非常に重要
- 投資を例にしても、勘だけで投資するのは非常にリスクがある。過去のデータに基づいて、冷静に判断して、必要な投資先を判断する必要がある
- データが既にあっても、「正しいデータ」でないといけない
- この「正しいデータ」を用いるために、テクノロジーが必要
- 例えばテクノロジーがあれば、日本の反対側のブラジルの情報であってもすぐに把握することができる。リアルタイムに世界中のことを理解できる環境が整ってきている
最後に
DATA CLOUD WORLD TOUR JAPANは、10月25日~10月28日まで開催しております!まだ登録していない方は、是非登録して気になるセッションをご視聴ください!