[レポート] C-2 パフォーマンスは7倍へ!大量GPS位置情報データを爆速でSnowflakeへリプレイス成功!– Snowflake Data Cloud World Tour Tokyo – #SnowflakeDB

2023.10.16

2023年09月08日(金)、ANAインターコンチネンタル東京にて、Snowflake社による日本最大級のデータイベント「Snowflake Data Cloud World Tour Tokyo」が開催されました。

「Snowflake Data Cloud World Tour」と銘打っているように、このイベントは全世界3つのリージョン(APJ, Americas, EMEA)、26の都市で継続的に開催されています。東京での開催はその一環という訳ですね。

当エントリでは、イベント内のセッション『パフォーマンスは7倍へ!大量GPS位置情報データを爆速でSnowflakeへリプレイス成功!』の参加レポートをお届けします。

目次

 

セッション概要

アジェンダに記載されているセッションの概要は以下の通りです。

セッションタイトル:
・パフォーマンスは7倍へ!大量GPS位置情報データを爆速でSnowflakeへリプレイス成功!

登壇者:
・株式会社Agoop 取締役 兼 CTO 技術開発本部 加藤 有祐 氏

セッションの説明:
日本全国のGPS位置情報データを活用して人流データを分析提供しているAgoop。9年間にわたり活用してきた既存の分析基盤を、全社横断チームでの取り組みにより、Snowflakeへのリプレイスに成功。検証期間は4ヶ月、リプレイスに5ヶ月。パフォーマンスはなんと7倍へ!Snowflakeの導入や社内説得に悩む方々は、この効果を訴求材料としてご活用ください!

 

セッションレポート

 

はじめに

  • セッションを始めるに当たっての3つの数字
    • パフォーマンスは7倍に
    • 移設期間は9ヶ月
    • コストは34%削減
  • 今日のお話は『Amazon Redshift Provisioned』から『Snowflake』への移行に関するもの。今日はこの辺りのポイントについて解説。
    • RedshiftとSnowflakeの違い
    • 大規模移行における効果
    • Snowflakeを始めるための社内説得材料が欲しい
  • 今日の内容はプロダクトの優劣をつけるという話ではない。あくまでもユースケースにおける効果について話す。

 

Agoopについて

  • ビッグデータ活用でDX・戦略実現を支援
  • ソフトバンクの基地局改善を支えたデータサイエンティスト部隊が分社化して設立
  • 国内の提携スマートフォンアプリから位置情報データを取得し、流動人口データを開発、活用
  • データの取り扱いについては厳密な対策を施している(個別同意=オプトインの取得、統計加工・秘匿化処理)

  • 今回発表する移行ケースにおける「データの規模感」

    • 2000万AU
    • 400TB
    • 2000テーブル
  • なんでこんなにデータが多いのか?
    • 大規模・高精細・多種多様な項目による高負荷なデータ処理を行う必要があるため。
  • Agoop社のビジネススキーム
    • 2015年Redshift本格運用開始/AWS先進事例で講演や掲載等多数
    • データ取り込み→分析からデータ提供/サービス/BIへ。このスキームを実現する上で分析処理の遅延が発生するようになり、ビジネス影響へ直結していたので移行を検討した

 

Redshift検証での課題

  • ポイントは大きく4つあった。
    • パフォーマンス
    • コスト
    • メンテナンス
    • 孤立化

パフォーマンス

  • 日次処理の時間遅延:スペックアップ中は処理が中断し、時間が掛かっていた
  • 障害時の対応:顧客対応に遅延が発生し、ビジネスにも影響が出ていた
  • アドホック分析:分析案件増加時に柔軟に対応出来ない状況になっていた
  • 心理的負担:上記の状況がエンジニアの心理的負担を増やしていた

コスト

  • ピーク時のスペック
    • ピーク時の要求性能に対してRI購入を行うためクエリ単価的に高くなってしまった(軽量クエリには過剰な性能だった)
  • 閑散期等の無駄コスト
    • RI契約を行ったことにより、クラスタを利用していない際にも課金される状態になっていた(クエリの実行時間実績は平均40%程だった)

メンテナンス

  • メンテナンスウインドウ:頻繁にリブートが必要となっており、メンテ対応運用が肥大化していた
  • チューニング:改善ポイントが多いことは良いことなのだが、そのポイントの多さに工数が取れない状況が続いていた
  • ストレージ圧迫:ストレージ容量上限に対してその量管理の運用作業が発生、気軽にデータを取り込めなくなっていた

孤立化

  • ストレージ枯渇やクラスタへの負荷影響によるビジネス影響を避けるため「自由に分析」が出来ない状況になっていた
  • 最小限のエンジニアやギリギリ運用する体制になっていた

 

検証・移設・効果について

  • 経営層とエンジニアがタイミング良くSnowflakeに興味を持った(2022年10月頃のお話)
  • Snowflake移設プロジェクトのタイムライン - 検証から運用まで9ヶ月
    • 2022年12月:検証開始
    • 2023年04月;移設開始
    • 2023年08月:運用開始
  • 検証時の評価項目
    • 前述4つの課題に対する効果が学習コスト、移行コストを上回るか否か
  • 検証結果:4つの観点全てに於いて効果を確認
    • パフォーマンス:大幅改善が見込める(5倍高速)
    • メンテナンス:大幅な改善が見込める
    • 孤立化:大幅な改善が見込める
    • コスト:同等 or 多少の改善が見込める
  • 検証時のメンバー構成:少人数体制での実施(CTO1名、データエンジニア2名、データサイエンティスト1名)
  • Serverless vs Snowflake?
    • 課金方法等はいずれも類似した傾向ではあったが、Serverlessに致命的な課題が2つ発生していた
    • クラスタ間のデータ共有問題
    • 柔軟性
  • 移設判断のKPIで留意したこと
  • 移設後の構成はSnowflakeが中心に
  • Snowflakeに対する所感:学習障壁は低く、手厚い移設サポートも得られた
  • 全体所感:「控えめにいって最高です」
    • パフォーマンス面の効果:ストレスフリーな分析基盤環境を実現出来た
      • クエリプロファイルによるチューニング:クエリのボトルネックが瞬時にわかり、チューニングが容易に
      • 5mメッシュ基盤の開発:移設に伴い基盤データの詳細化を実施。処理日数が従来より7分の1(200日→29日)で済んだ。(タイトルの"7倍"はここから来ている)
    • メンテナンス面の効果:データ分析に集中出来る環境が実現
      • 1データ1プラットフォーム化:データが一箇所に集約、誰でも簡単にデータがアクセス出来るように
      • データ利用に関する部門間調整や負荷調整も不要に
  • Snowflake移設をきっかけに、全部門横断したコミュニケーションが活性化出来た
  • 移設効果まとめ
    • パフォーマンス:7倍へ/ストレスフリー&ビジネスも加速
    • コスト:34%の削減効果
    • メンテナンス:ほぼ不要で分析に集中出来る環境を実現
    • 孤立化:データも組織も1つに

 

今後について

  • エンジニアがワクワクしながらデータによる価値創造出来る環境を
  • マーケットプレイス
    • 人流データ(サンプル)の提供を開始。ボタン1つで試せるように

  • 新基盤でのデータ価値創造を加速させ、マーケットプレイスを通して社会へ還元を目指す

 

まとめ

という訳で、 Snowflake Data Cloud World Tour Tokyoでのブレイクアウトセッション『パフォーマンスは7倍へ!大量GPS位置情報データを爆速でSnowflakeへリプレイス成功!』の参加レポートでした。同じような課題、問題に直面しているユーザーにとっては色々と参考になる部分も多いであろう、とても参考になる情報が散りばめられたセッションだったと思います。