データサイエンティストサミット 2014に参加してきた

2014年01月に発足した、BrainPad+Yahoo Japanの合弁会社。：Qubital Data Science
なぜ合併したのか？
- BrainPad側：
  - 分析の成功には幾つかの要素が噛み合う必要があります。データの収集・蓄積/データ加工分析/適切な分析とビジネス活用等。
  - ビジネス課題を正しく分析に落としこむこと、その策をビジネスに落としこむ事が重要。
  - データ加工：適切な分析を実施するために大量データを必要十分なスピードで処理する環境
  - データ収集：ビジネスに関係性のある豊富で質の高いデータを集める
  - 様々なアドバイスは出来ても本質的な解決に至らなかった。
    - 分析側が充実していても質の悪いデータや少量では期待できる成果は出せない
    - 分析に掛かるコストを事前に見積る事が困難
    - 外部データも合わせて使わないと効果が出せなかったり
- YahooJapan側：
  - 広告販売だけではこれからのマーケティング・ソリューションとしては不十分
  - データを価値のコアに据えて対応する必要がある→qubital設立の契機に。
  - ミッション：Yahoo Japanが保有する膨大なマルチビッグデータ/お客様固有データ/高度なモデリング・機械学習スキルを要する環境
Yahoo DMP：マーケティングの中心的な存在：Yahoo Japanのマルチビッグデータを活用する事で、クライアントのデータだけでは測定出来なかった情報や顧客に関するよりリッチな情報を活用可能に。
- 特長：0.2秒で間に合うように、その時の広告等を出していこう、という目標
- データ量：560億PV/月
- オムニチャネル
分析環境構成
- Hadoop +α：MapR、Skytree
- データウェアハウス：Pivotal Greenplum Database
- BIツール：Tableau
Qubitalデータサイエンスの提供サービス：データ収集から顧客分析、広告運用、優良顧客の顧客育成までトータルに幅広く。

「日本最大のレシピサイトを支える食の検索データ活用」

登壇者：中村耕史氏〔クックパッド〕

クックパッド：料理レシピサイト。
- レシピ検索No.1／料理レシピ載せるならクックパッド
ユーザー数：延べ人数で4400万人。スマートフォンからの利用が最近多い。
食品、料理はネット、特にスマホと相性が良い特性がある。レシピ検索だけでなく、『今日何を買うか』の特売情報なども展開。直近200万人以上が使っている。
検索結果やレシピ詳細ページから登録店舗の特売品情報を閲覧可能に。

クックパッドに集まるデータ
- 日本で一番利用されている料理サイト、即ち日本で一番食卓の情報が集まっているサイト。
- 検索ワードから始まる食品決定サイクル。ニーズの実態が直感的且つスピーディに把握し易い。
- シェアが前提となるソーシャルデータでは見えにくい『ホンネ』が垣間見える。
- 全国の『食べたい』が見える『たべみる』：法人向けサービスとして展開中。SI値(1000回あたりの検索頻度)を指標に。
  - たべみる | 全国の「食べたい」が見える、「たべみる」紹介サイト
- おうちごはん番付横綱の『塩レモン』、伸びたのは最近の話。2013年に急激に増えてくるようになった。(2010年頃からワードではでるように)また、どう使われているかも検索ワードで分かる。
  - クックパッド、上期「おうちごはん番付」を発表〜東の横綱は「塩レモン」、西の横綱は「妖怪ウォッチ」〜 | クックパッド株式会社

検索データの活用
- 人気ワードランキング：1時間毎に更新。
- クックパッドニュース：ニュースメディアとして提供。検索ワードを絡めて分析結果等を公表。
- トップページレシピの選定
- テーマに応じたメニューの選定(アボカドカッターの2年分の売上を3日で達成)

まとめ
- 毎日の料理を楽しみに出来るようなデータ活用方法を。

「リクルートのビジネスを支える分析・活用手法」

登壇者：西郷彰氏〔リクルートテクノロジーズ〕

株式会社リクルートテクノロジーズ
- 一言で表すなら、『情報サービス』事業を手がける企業。ライフイベント領域、ライフスタイル領域で情報サービスを提供。『まだ、ここにない、出会い』の実現。
- ビジネスの主戦場はネットに移行、ネットインフラやデータ分析基盤がキーに。

ビッグデータ分析基盤について

ビッグデータ活用事例
- 13事業に対し、年間約200件のデータ利活用
- 可視化分析：cameran x SNS分析事例。アプリのダウンロード数とSNSの盛り上がりにどのような相関があるのか分析を行った。
- 『みんなの求人板』：IPアドレスデータや履歴を元にオススメ求人を展開
- データサイエンティストとは求められる能力、体制：
  - 分析スキル
  - 技術スキル
  - PJ管理能力マーケティング＆ビジネススキル

「データサイエンティスト女子が語るDB活用とテキストマイニング」

登壇者：羽野三千世氏〔オウケイウェイヴ〕

質問・疑問に答えるQ&AサイトOKWave
2000年サービス開始。
OKWave総合研究所：2013年5月にデータ分析ビジネスとして本格スタート。

Q&Aデータ分析の概要
- ユーザーの登録情報を集計：登録データの集計から分析テーマに対する関心層を把握出来る
- 質問データに記載された情報の集計：ユーザー登録データ以上の情報を得る事が可能
- 質問内容の可視化：分析テーマに対してどのような話題が頻出しているか把握出来る。話題を深堀り分析すると質問者の本音が見えてくる。

回答データを活用した評判分析
- 引越し業者のオススメに関する質問：自社／競合の製品サービスに対する評判を把握出来る。

お礼データを活用した分析
- 解決されない悩みから新商品開発のヒントを得る事が出来る。

まとめ
- 分析に集中出来る環境を作ってもらう事：法人営業部帯やリスク管理部門等、他部署を巻き込んだ組織作り
- 分析テクニックよりも考察：分析から得られた知見を顧客企業の具体的なアクションプランに落としこむ事が必要。

「niconico文化をビッグデータでグロースハックする」

登壇者：細川泰平氏〔ドワンゴ〕

データサイエンス関連のお話。
ニコニコ：動画生放送ポータルサイト。
- niconico
3つの数字：登録アカウント数＝4000万、投稿動画数＝2400万、生放送番組数＝1億8000万番組。
得られるデータはこれらのコンビネーション、組み合わせとなる。大量データが保存出来るようになった時代に成立したサービスと言える。

業績推移：
- プレミアム会員収入が大きな比率を占めている。
- UGC(UserGeneratedContents)：ユーザーのコンテンツを視聴したいユーザーが課金。投稿者と視聴者がコメントなどで相互に影響し合う。

A/Bテスト事例
- 最近は色々分析作業を進めている。
- アカウント作成導線：デザイン部分の変更。このような変更を月に2~3回変えてテスト。CTR/CVRを主な指標として判断。
- 要素毎に変更、要素を組み合わせてテストしている。
- 消費税表記：テキストのみの変更だったが、結局有意差は無し。という事が確認出来た。

詳細分析事例：HHI/月間コメント数でのユーザー散布図
- 最初はシンプルなヒストグラムから
- 多数の指標から異常値・高影響点を受けないものを選び出す。
- 施策的に影響度の大きい所にスコープ。

分析関連開発
- 全て自社で対応&内製。Hadoop/Mahout/HBase

データサイエンスへの関わり方
- Director: KPI, ABテスト, キャンペーン
- Analyst: 広域分析、掘り下げ、数学的手法
- Engineer: 分析基盤開発、分析型サービス開発
より良い相互作用を提供する『場』へ。
シームレスにスキルを持ったチームへ。周辺領域への興味と理解、ユーザーであり続ける等が必要。

「オークションデータの解析と有料データ提供のビジネスモデル」

登壇者：植山浩介氏〔オークファン〕

自己紹介等
- 植山氏の『眼』の眼底画像から始まった。
- 1000人の画像データを分析し、病気との相関関係を調べた。
- 今度10000頭の犬の病気調査を麻布大学と連携。
- 最近では1億件のアクセスログを使ってWebサイト最適化のCMSを作成。
- 200億件の商品実売データを分析加工したビジネスも行っている。

aucfan
- 買うときも売るときもオークファン -ヤフオクなどオークションの情報が満載
- 小売・実売価格データ、過去10年200億件のデータを持つ。
- 優良会員向けに月数百円で販売している。なぜ売っている？→質屋の例：客とのやり取りデータを手書きメモやEXCELで情報メモしてたけど、それがaucfanで代替されるように。所謂『値決めデータベース』。このようなデータベースは過去に無かった。

値決め：取引
- 1)データ
  - 国内ショッピング・オークション
  - 海外ショッピング・オークション(global aucfan)
  - 価格に関する情報は全て収集するようにしている
- 2)クリーニング
  - 自動＋手動。
  - データの統合が大変な事になっている。製品名がバラバラ。そういうのを自然言語処理で行い、残りを目視で行っている。(手動マッチングシステム「mocsy」)
- 3)分析
  - 素早く検索する為にオンラインメモリDB上で操作
- このサイクルが上手く回っているのでaucfanを使って頂いている。

まとめ
- キモはクリーニング！aucfanだと商品数は1億件程あり、それらを整理整頓して行く作業。個人的には好きな作業だそう。
- データが汚い！でもそれが強み。整理整頓にやりがいがある。
- データがない！無いデータを作る事に価値がある。最近興味が有るデータは橋梁のひび割れに関するもの。

パネルディスカッション

モデレータの鈴木氏と登壇者全員によるディスカッションが時間終了まで行われました。

顧客・ユーザー部門とコミュニケーションする上で大切にしていること：
- アイデアを一緒に作るというのは大切にしている。企画部門(アイデアはある、マーケセンスはある、分析は得意ではない)
- 系派が異なる者同士がディスカッションする事で色々アイデアも生まれる。
- 割と気を付けていることは『スピード感』。施策のスピード、レバレッジを利かすための仕組みづくりのスピードは重視している。まずはやってみる。
- プロトタイプがあるとイメージしやすい。アイデアを作る上で必要。仮説検証値が目の前にあると理解度も違ってくる。
- レコメンデーション等も画面プロトがあると全然違う。(以上、西郷氏)
- 分析の前にお客様にヒアリングしている。
- 『狙った結果は保証できない』と前置きする。その上で受注するようにしている。
- 分析結果が出たら、お客さんのビジネスを理解して失礼を承知で課題・提言等を行っている。(以上、羽野氏)
- 期待値調整。『ビッグデータ』を筆頭にフワフワした言葉でやり取りしてるので見てるゴールが違う事がある。
- どんなものが出て来るのかの期待ハードルが高くなってくる。その辺の調整必要。(以上、草野氏)

苦労した定義、水準、指標に纏わるエピソード等
- 1000回辺り1回：これは物凄い多い方。50000単語位で検索されている、4000回に1回も高い。0.25%の説明を具体的な商品でイメージしてもらう。『干ししいたけ、ミニスーパーでも売ってますよね？』のような確率の例えで(中村氏)
- 自社内でデータ分析は0からの出発。アカウントの属性に年齢性別があり、この値はかなり信用出来る。(細川氏)
- 指標の発生するチャンス。データ分析、活用の効果はなんぼあるの？という問いに苦労する事が多い。どんだけ売上アガるのか？とか
- リクルートは結構ネット広告を使っている。その際に社内の指標を使う事も多い。(以上、西郷氏)

後継者、ないしは右腕をどのように発見、育成しようとしているか？
- データが無い状況から始まってるので、そこからやるパッションと技術を持っている人を集めたチーム作りが必要なのでは。(植山氏)
- テキストデータを扱っているのでそのデータを見続けたり料理に興味を持ってくれる人を増やす事から始めている。(中村氏)

14:00～14:30 【A-2】30分でわかる『R』によるデータ分析

登壇者：山本覚氏〔データアーティスト〕

オープンソースの統計解析ソフトである『R』は、多様な統計手法での解析が可能かつ高度なグラフィックを備えており、数学だけでなく商業、医療など幅広い分野のデータ解析において役立てられています。本セッションでは『R』の基本の使い方から実際のデータマイニングの手法に至るまでを、データサイエンティストの視点からわかりやすくご紹介いたします。

30分でわかる『R』によるデータ分析｜データアーティスト from Satoru Yamamoto

こちらは関連資料が公開されているようなので、そのスライド資料URLを貼る形で展開するに留めます。『Rとは何ぞや？』から、Rを使っての代表的な分析作業をデモを交えております。分析手法だけだと中々イメージしづらいものも、サンプルを交える事でイメージし易くなりますね。Rは個人的にも触ってみたいのでこの辺から徐々に広げて行きたいと思います。

15:30～16:10 【A-4】ビッグデータの収集、整備、統合、活用のティップス

登壇者：正金秀規〔Talend〕

ビッグデータに限らず社内データの収集、整備、統合、活用は簡単なことではありません。データの量、データ収集のタイミング、データ品質の確保、統合手法の統一化、マスターデータの管理、データ統合というエコシステムの構築方法など、様々な課題があります。社外のデータ、多種多様なビッグデータとなればさらに課題は複雑化していきます。Talendはデータ統合専門にビジネスしてきた10年間のノウハウを持って様々な課題解決策をご提案します。

Data scientist summit 2014 from Shinsuke Terazawa

データサイエンティスト、印象としてはデータの分析の側面が強い？
これから話すのは、分析そのものではなく、分析に携われる方々に知っておいて頂きたいポイント。

データ分析の阻害要因
- 昔話になってしまうかもだけど、ビッグデータアナリシス・DWHの歴史があった。脈々と運用されている。DWHの本来の目的は分析。
- 現在のDWHでは、ビッグデータ環境に合わせた(何らかの)最適化が必要。そういう時期に来ている。新しいデータが必要。ビジネスが新たなデータを要求する時代に。
- 想定していなかった情報が業務を取り巻いてきている。
  - ソーシャル・ネットワークが生成するデータ、センサーデータ、IoT、
- データ量／データの種類／ソース数…これらが手に負えない様な膨大な量に。

ビッグデータでトレンドな分析対象：構造、半構造、多構造、非構造データ等
- 顧客インタラクションデータ：クリックストリーム/WEBアクセスログ/コールセンターのボイスデータ/Email
- ソーシャル・ネットワークデータ
- 非構造コンテンツ
- センサーデータ：GPS位置情報、天気情報、光量、移動、振動、気圧、RFID/NFC等
- 業種、業界特化データ：CDR：通話明細等

困難な点：ソースデータの複雑さ。
- データの種類が多岐にわたる
  - RDB等で管理された構造化データ
  - 半構造化データ：XML/HTML/JSON等
  - 非構造データ：テキスト
  - マシン生成データ：センサーデータ等の特殊フォーマット
- データ量があまりに膨大
  - ギガからペタへ、億から数十億へ
- 情報の鮮度に対する要求の高度化
  - バッチ処理からストリームへの対応も考慮が必要
- データの意味を理解しなければならない
  - データ項目には様々な意味があります

分析作業の負荷軽減と精度向上、定着化の為にデータの整理整頓が必要。

データ分析とビッグデータインテグレーション
- データ分析に於けるプロセスと役割
- 仮説構築：データ収集：データ整備・変換：視覚化：データ分析：データ活用

データ分析システムで必要な機能：ビッグデータストア機能
- Hadoop: 大量データを蓄積
- NoSQL DB: データ・検索方法に対する最適化
- Spark: インメモリ

ビジネス・インテリジェンス機能
- データの収集(必要なデータを見つける)
- データの整理(有効な項目を見つける)
- 視覚化
- 分析

データインテグレーション機能
- データ収集の自動化
- コンバージョン
- クレンジング、フィルタリング
- 属性の付与・結合
- データストアへ投入
  - 更にインテグレーション担当者は：
  - 分析担当者がパイロットした分析アルゴリズムを定型処理に実装
  - 自動実行する事で定着化

モノ(道具と基盤)は投資獲得と共に順次拡張：小規模体制、低コストで→PRJプランニング、戦略、予算策定
OSS系インテグレーションツールとして、Talendは、『まずはローコスト』で使ってもらえるものがある。

ビッグデータインテグレーションのポイント
- 目的と手段を取り違えない：システム構築やデータ分析は最終目的ではない。分析やデータ統合によってビジネスを推進する、ビジネス目標を達成する事こそ目的
- スパイラルアプローチ：スナップショットによるデータ統合や分析ではなく、仮説検証データ分析というPDCAサイクルを回して実績を積み上げていく
- 三位一体：データサイエンティスト・インテグレーション担当者・システム基盤担当者がいったいとなって進める

Talendの概要と製品紹介
- Talend株式会社| integration at any scale
- フランスからスタートした会社。
- オープンソースを公開しコミュニティを活発化、製品開発にフィードバック。ETL・ESB・EAIツール『Talend(タレンド)』日本公式コミュニティ / データ移行・統合、システム連携、MDM・DWH構築をサポート
- Talend Open Studioシリーズ：触ってみるのであれば、まずこちらの製品群から。Talend Open Studio | Talend
- GUIベースに自動生成。Javaのプログラムコードに落ちて、そのまま動く。どういうコードになっているかも確認可能。透明性は高い。

16:20～17:00 【B-5】Tableauが紹介する「誰でも簡単にビックデータを視覚化し、分析」

登壇者：並木正之氏〔Tableau Japan セールスコンサルティングセールスコンサルティングマネージャー〕

Tableau Japan設立時からのメンバーであり、Tableau製品のエキスパートです。セールスコンサルティングマネージャーとして、日本のお客様へのTableau製品の導入および活用を支援しています。また多くのセミナー／講演会でエバンジェリストとしてTableau製品の紹介にとどまらず、データ分析における最新ビジネストレンドや技術トレンドへの啓蒙を行っています。Tableau以前はSAP、EMC、IBM、インフォマティカなどの外資系企業で、技術本部長、製品マーケティング、製品管理、コンサルティング、プリセールスなどを歴任してきました。

Tableau Japan並木氏による、製品のデモを見ながらの各種機能紹介やお知らせ等。
- Tableauのスローガン：『データを可視化して、理解する事が出来るように支援』。
- 画期的なイノベーション：国防総省のプロジェクトとして発足。
- 情報を誰もが理解出来るようにする、というテーマで3人が集まり、創業。
- スタンフォード大学教授パット・ハンラハン：
  - Tableau Softwareの共同創業者、スタンフォード大学教授パット・ハンラハンが片柳コンピュータ科学賞を受賞 | Tableau Japan 株式会社

Tableau Softwareの目指すもの：
- スティーブ・ジョブス：コンピュータの事を『bicycle for our mind.』と評する。(以下がその動画)
  - Steve Jobs - Computer is a bicycle for our minds - YouTube
- 『人間の移動出来る能力は他の動物よりも遥かに劣る。ところが自転車を使うとコンドルを上回る。コンピュータとはそういうものでは無いだろうか。』

[swf]http://www.youtube.com/watch?v=2hXSfS1i4jU,700,500[/swf]

Feel: 直感を大事にする
Shift: 施策や切り口の視点を変えてみる
Relate: 関連付ける

製品デモ(Tableau Desktop v8.2で実演)：
- Tableau 8.2 | Tableau Software
- このデータを見たい：この操作がクリック数回で可能に。(EXCELを開いた)
- 直感で要素を操作
- VizQLでグラフ描画を実演
- 現場の人ならピンとくる：データ状況から見えてくるものがある。
- 各種機能解説：地図/回帰分析(傾向線)/分布/標準偏差、散布図...
- 幾つかのデモを見せながら、ある情報の部分が原因である事がわかった。更に検証を行い、知見を現場に伝え、改善に繋げて行く。

全世界で19000社が導入。
昨年5月、NYの証券取引所に上々。
GoogleでTableauと検索すると色々出て来る。
トライアルは2週間。是非試してみてください。

まとめ

以上、当日のイベントレポートまとめでした。体調等の都合もあり全てのセッションを完全に拝聴する事は出来ませんでしたが、今年も色々と情報を得る事が出来ました。より身近にビッグデータを扱うようになった事もあり、登壇者の工夫や苦悩等についても非常に親近感を以って聴く事が出来たのではないかなと思っております。

ビッグデータ分析環境については、対象となるデータ件数やストレージ容量もさる事ながら、それらファイルやテーブルの"種類"の数についても比例して『ビッグ』になる傾向があるように思います。更に、分析手法や視点は勿論『データサイエンティスト』と呼ばれる人にとっては必要なスキルと言えますが、その一方でその分析環境を構築する・整えるためのスキルやノウハウも非常に重要であると最近痛切に感じております。今後はその両輪スキルをバランス良く身に付けて行きたいものですね。私からは以上です。

データサイエンティストサミット 2014に参加してきた

目次