話題の記事

Talend、TreasureDataを今から覚える人のための「顧客理解のためのビッグデータ分析基盤」勉強会レポート

2014.11.25

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

11/13(木)に「顧客理解のためのビッグデータ分析基盤」という勉強会をTalendさん、TreasureDataさんと一緒に開催をしました。クラスメソッドからは甲木が登壇したので、その様子をレポートしたいと思います。

Talend や TreasureData について、名前はよく聞くけど一体どんな製品なんだろう?という方が読まれると、だいたいこういう製品なのかー、というのがおわかりいただけるかと思います。

勉強会のプログラムはこんな感じです。

  • 「クラスメソッド・カスタマーストーリーのご紹介」
    • クラスメソッド株式会社 AWSコンサルティング部 ソリューションアーキテクト 甲木洋介
  • 「ハイブリッド環境で威力を発揮するビッグデータ統合ツールのご紹介」
    • Talend株式会社 マーケティングディレクター 寺澤慎祐氏
  • 「一括管理クラウドサービスのご紹介」
    • トレジャーデータ株式会社 マーケティングディレクター 堀内 健后氏 
  • 懇親会

「クラスメソッド・カスタマーストーリーのご紹介」

  • クラスメソッド株式会社 AWSコンサルティング部 ソリューションアーキテクト 甲木洋介IMG_4105
  • クラスメソッドは2004年設立、11年目。事業所は秋葉原、札幌、上越
    • AWSコンサル&サポート、iOS開発、ソリューション開発といった事業部があります
    • 全体で60名程度のエンジニア集団
    • 営業+PL募集 (※1)
    • ほぼ全員がAWSの資格を持っています。
    • AWSパートナーネットワーク
      • ビッグデータコンピテンシー
        • 世界で13社、日本初!
      • プレミアコンサルティングパートナー
        • 世界で28社、国内4目
    • 実績としては、AWSだけでなく、スマートフォンアプリも多数ある。
    • 業種も様々、証券、EC、メディア、外食、食品、コンテンツ等など。
    • 紅白歌合戦の時は、世界中のリージョンにインスタンスを起動して大量のメッセージを処理した。
    • データ分析基盤の構築支援などもやっている
    • エンジニアブログ Developers.IO を運営しています。
      • 月間97万PV、34万UU、国内で最も多くのAWS記事を公開しています。
  • カスタマーストーリーのコンセプト
    • カスタマーストーリーとは、ビッグデータ分析の基盤を提供するソリューションです。
    • カスタマーストーリーは様々な技術要素の集合体です。
    • 最近、ビッグデータの活用に注目が集まっている
    • 従来の手法では、コスト高で時間も掛かる
    • カスタマーストーリーは、ビッグデータ分析の基盤。特徴は「早い」「安い」
    • 3つの特徴がある
      1. 短期導入で1日でも早く始められます
      2. 分析に集中できる環境
      3. いつでも規模や機能を拡張できます

短期導入で1日でも早く始められます

  • 従来のソリューションと違い、AWS上に環境を用意してあるので、すぐに始められる。
  • プログラムを書くところが少なく、スピーディーにシステムを提供できる

分析に集中できる環境をご用意します

  • 様々な製品を組み合わせている。これらを顧客自身が管理するとなると、分析以外のことに時間を採られてしまう。カスタマーストーリーはそれをクラスメソッドが一本化する

いつでも規模や機能を拡張できます

  • 例えば、ひとつの部署で導入して成功をすると、他の部署からも使いたいという希望がでてくる。カスタマーストーリーはこういったニーズにも柔軟に対応できる。
  • 従来のSI的な構築と違い、必要な機能について都度見積もるといった手間はない

カスタマーストーリーの構成

CSプレゼン資料_20141113

  • カスタマーストーリーの技術要素
    • 既存システムのデータを活用する場合
      • Talendを中心にする
      • 構造化されたデータ、CSVで用意されたデータ、こういったものがバッチ処理でサーバにあります、といった例はよくあると思う。Talendは効率的に編集して処理側に渡すことができる
      • Talendはドラッグアンドドロップベースで定義し、Javaのコードを生成する
      • できたデータをAmazon S3に格納したり、Redshiftで処理したりできる
      • できたものはJavaのプログラムになっている
    • 既存システムからのデータ収集(非構造化のデータ、ストリームデータ)
      • TreasureData
        • Apacheのログなどの情報をリアルタイムで転送してくれる
        • 大量の非構造化データを効率よく蓄積、構造化
      • Amazon Kinesis
        • フルマネージドなリアルタイム処理サービス
        • これもクラウドサービスなので追加などは簡単
      • Amazon Redshift
        • クラウド内で完全に管理された、ペタバイト規模のデータウェアハウスサービス
        • 検索などは非常に早い
      • Tableau
        • 直感的な操作でデータを可視化&ダッシュボード
      • Alteryx Designer & Server
        • データの予測分析、可視化
        • Alteryx の出力の結果をTableau で閲覧する
    • 事例
    • カスタマーストーリーの優位性
      • 従来品に比べて、安い、早い、柔軟性が高い。
    • さいごに
      • データを分析するにはデータをためなくてはならない
      • しかし、コスト面などからウェアハウスの構築と公開がなかなかできていないのが現状。
        • そこをクラスメソッドはお手伝いしたい。
        • 「カスタマーストーリーでデータの民主化をお手伝い」

「ハイブリッド環境で威力を発揮するビッグデータ統合ツールのご紹介」

  • Talend株式会社 マーケティングディレクター 寺澤慎祐氏IMG_4111
  • Talend の認知度が上がってきている
  • 知っている人のほとんどはETLとして。最近はビッグデータをインテグレーションするっていうのに変貌しました
  • 自己紹介
    • サン・マイクロシステムズでオープンスタンダード、オープンソースで仕事をしていました。日本オープンソース協会の理事です。
      • 2000年、当時の上司が「寺澤くん、これからはオープンビジネスだよ。オープンカーに乗りなさい」とのことで、オープンカーに14年のっています
      • オープンはTalendの強みでもある
  • 何故、Talendがあるのか? データに価値を生み出すことを手伝うのがTalend
  • 繋がっていないものを繋げることで価値が生まれる。データの「橋」

IMG_4112

  • Talendは2006年にパリでスタートしました。2人のエンジニア、ベルトランド・ディアドとファビルス・ボナンが創業した。
  • TalendはEclipseで作られていて、オープンソースになっている
    • コミュニティは世界で45,000名
    • テスターが1,500名
      • グローバルで社員は400名いるが、テスターがその3倍の1500名いる。オープンソースは品質が悪いという意見があるが、Talendはそんなことはない。上位互換、下位互換も担保されやすい
    • ダウンロード数2000万
    • ユーザー数100万名
      • 20人がDLすると1人がユーザーになるくらい
  • オープンビジネスであることも重要
    • 情報と情報、テクノロジーとテクノロジーをつなぐところに我々はいます。
    • コンペチターはIBM、SAP、Oralceだったりするけど、R&Dレベルでは彼らと協業している。
    • 導入企業例は1800社IMG_4113
    • データがない企業などないので、あらゆる業種が顧客になっている
  • なぜビッグデータなのか? なぜビッグデータ技術なのか?
    • データを繋げることに価値があると考えている。それは意思決定に役立つ。マーケティングのテーマ、経営のテーマを解決しなくてはならない。
    • 「データ→情報→知見→意思決定」となる
  •  IMG_4115
    • データ量が多いときはビジネスの価値は少ない。減っていくに従い価値があがる。
    • Talendは製品を提供している。データから意思決定までの時間を短くすることが必要だと考えている
    • Yahooの場合、レイアウトの微妙な違いによってユーザーの行動特性が変わることがわかっている。これらをデータを分析して定量的に意思決定ができるようなっている
    • ビッグデータ関連の課題
      1. 多種多様でハイブリッド環境にあるビッグデータをどうやって収集する?
      2. 集めたビッグデータをどうやって早く処理する?
    • 多種多様でハイブリッド環境にあるビッグデータをどうやって収集する?→解決策
      • GUIによる簡単開発
      • 800個のコンポーネント
    • 別々のベンダーが構築したデータベースからデータをもってくるときの形式を揃えるとかも簡単にできるようなっている
    • 従来データ(構造化されている)と構造化されていないデータ
    • どうしてもない場合は…
      • ご自身で開発してください
        • これは開発が可能になっていることでもある。そういった環境を用意している
        • オープンソースなのでJETで開発可能
        • コンポーネントの70%はコミュニティ由来
    • ハイブリッド環境で
      • オンプレにマスタ、サイトから大量のデータ、これらをAmazon EMR で処理をして、Redshiftに渡すとかもできる
      • 集めたビッグデータをどうやって早く処理する?→解決策
        • MapReduce上でネイティブに動作
        • GUIツールによる簡単開発
    • MapReduce で JARファイルが動くので、Amazon で大量のインスタンスを立ち上げて処理がおわったら落とす。これで性能限界がほとんどない。
    • Hadoopディストリビューションを選べる。MapRを選べば、MapRに最適化された形式になる
    • 開発者はTalend Studioだけの習得で大丈夫。後ろで何が動いているかはあまり意識しなくても大丈夫
  • MongoDB、PIVOTAL、Talend
    • Talendの顧客であるGEの事例では、飛行機のタービンの状態を把握して壊れそうなパーツなどを予測している。何十億円ものコスト削減に貢献している。
  • One More thing
    • Talendをつくったのは、面倒臭いことを解決したかったから
    • ビッグデータでビジネスをするのに、CPUのコア数とかで課金したらいつまでたっても利益がでない。
      • Talendは初年度は(基盤構築など人手がかかるため)コストがかかるが、安定したら契約する本数を減らしても大丈夫。

IMG_4123

「一括管理クラウドサービスのご紹介」

  • トレジャーデータ株式会社 マーケティングディレクター 堀内 健后氏

IMG_4124※ 本セッションの資料はこちらからDLできます。

  •  トレジャーデータについて
    • トレジャーデータは3年ほど前にシリコンバレーで日本人が創業した企業です
    • クラウド型データマネージメントサービスを月額課金で提供しています
    • Yahoo!の創業者、Sierra Ventures、Bill Tai、まつもとゆきひろに出資されている
    • 米ガートナー社の”Cool Vender in Big Data”に選出
  • データを貯めるところを作っています

IMG_4125

  • 収集するところも
    • 自動車などへの組み込み、モバイル
    • Fluentdを提供している
  • BIツールはお持ちのものでも大丈夫です。Tableau、Excelなどなど。
  • 大量のデータをいかに安く、分散処理させるか
  • クラウドサービス型なので、ユーザーが保守運用をする必要はありません
  • 日本の企業で導入されていることが多いです
  • マルチデータソースに強み

IMG_4128

  • Webサイトの場合
    • Tresure Agent
    • <JS>タグも活用してください
      • これから発表。SiteCatalystやGoogle Analyticsみたいに使える
  • スマホアプリにおける課題
    • ログ収集のためだけにサーバが必要?
    • アプリだけではログが収集できない?
    • ログイン前の行動がわからない
    • アプリをダウンロードしたあとの利用率がわからない
  • スマホアプリのログ収集
    • SDKを活用してサーバーレス
    • セッショナイズ機能でブラウザからアプリまで
  • SDKはAndroid、iOS、Unityに用意している
  • IPアドレスでセッショナイズ
    • 課題:ブラウザ経由でのアプリのDLなど効果測定できない
    • 解決:広告などからアプリの利用率まで一気通貫で効果測定が可能
  • 点解析:従来のコンバージョンの視点
  • パス解析:流入からコンバージョンに至るまでの「経路」に着目

 

IMG_4139スクリーンショット 2014-11-13 20.36.23

  •  まとめ
    • アクセスログを貯めることのメリット
      1. 柔軟な分析のために必要な大規模な中間テーブルや派生テーブルをいくらでも蓄積し、参照することが可能→コンバージョンパステーブルは、元のローデータとサイズがそれほど変わらない
      2. 後からコンバージョンポイントの見直しや、任意の視点でのポイント設定と言った”後付け”からの分析が可能→従来のコンバージョン分析では、事前にコンバージョンを登録して計測する必要があった
      3. 非常に細かい条件での抽出など、UIにとらわれない、かゆいところに手が届く分析を実現→ローデータおよび中間データ全てに直接アクセス可能なので分析可能性は無限大
  •  事例
    • アプリ×データを活用する業界が増加中
      • ゲーム
        • ユーザー行動可視化
        • キャンペーンの最適化
      • 小売(オムニチャネル/O2O)
        • 実店舗とネットストアの顧客行動を横断的に分析
        • マーケティング施策の最適化
      • 製造(IoT/M2M)
        • 機器のセンサーデータを分析
        • 新規ビジネス創出
    • アプリ×データ活用企業の共通点
      • まずは「生データ」を貯める
        • 分析項目は変わる
        • 生データさえ溜めておけば、後から自由に分析可能
      • 「分析」はレポートで定期的な状況把握から
        • 詳細な原因分析はレポートの次
      • ほぼリアルタイムに集計・分析する
        • 1時間前の課金状況を全員で共有
        • 昨日の売上と傾向を翌始業時までにレポート化
      • 「MUJI passport」の事例
      • ウェアラブルの事例
        • pebble様(米国)
          • データを送る時はスマホを使うことになる
          • アプリ毎のバッテリーのもち、故障のケースなどのデータも収集している
  • そして…
    • Dentsu.io を発表
  • 協業、新規事業、大募集!

    懇親会

  • 缶ビールをもって立ってたらTalend寺澤さんと目が合い、僭越ながら乾杯のご挨拶をさせていただきました。(恐れ多いですね……)
  • 懇親会中は、知人と話し込んだりレポートのまとめをしてたりして、ほとんど写真をとっておりませんでした。 よってレポートなしです。ご容赦ください。(サンドイッチ美味しかったです)