話題の記事

データサイエンティストサミット 2013に参加してきた

2013.12.07

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

『ビッグデータ』と共に昨今業界を賑わせているフレーズとして『データサイエンティスト』というものがあります。用語の意味や解説などは下記リンクなどを参考頂くとして、世間の見方としては様々ある模様です。AWS等クラウド全盛の昨今、ビッグデータ及びデータサイエンティストと呼ばれる役割や要素がその重要さを増しているのはまず間違いないと言って良いでしょう。

そんな中、そのものスバリな『データサイエンティストサミット 2013』というイベントが開催される事を知り、参加して来ました。開催会場はベルサール神田@小川町。ビル内2Fのフロアを利用して計2セッション同時並行で行われていました。

dsc2013-11

dsc2013-12

講演内容は写真撮影等禁止でしたので、ここからは文字ベースでお送りしたいと思います。聴講したセッションのうち、特に興味深かった内容のものについて以下メモ。

A-1 事業現場からのデータサイエンスの手法の紹介(仮)

  • モデレータ : 鈴木 良介氏〔野村総合研究所〕
  • 河本 薫氏〔大阪ガス〕
  • 北村 慎也氏〔帝国データバンク〕
  • 西郷 彰氏〔リクルートテクノロジーズ〕

こちらのセッションは途中から参加。

  • データサイエンティストとは?
    • 海外の募集要項見ても、レベルは細かく高い。スペシャリティを複数持ち合わせている事が求められている。こんな人、いないんじゃないかというような...
    • 人材定義を行い始める。分析スキル、基盤運用スキル、プログラミングスキルなど。
    • ビジネスを理解してどこに適用すればレバレッジするのか、その辺をコミュニケーションしながら進められるのか。
    • 現状なかなかいない:得意不得意をカバーし合い、チームで三位一体で取り組む事で対応。
  • データの「整理整頓」
    • 昔はテープ。出来るだけ小さな容量の中で如何に効率よく収めるか、分類するのかについて時間を掛けた。
      • 財務データを整理。1980年代から企業情報をデータ化しはじめた。(財務、企業属性、企業・倒産等)→時系列で活用。
      • 次第に色々なものが見えて来た。成長企業と経営者、成長産業と地域、空洞化と中小企業
    • 2008園から取引データをU・ID化。それまではデータを人間が読んでいた。→ネットワークが構築、関係性が出来てきた。潮流、流れが分かるようになった。
      • 整理整頓して行く中で取引データを構造化したDBを構築。
      • BtoBで75万件、(企業)、450万件(取引データ)
      • 企業間の取引データを連携し、与信やお得意様等の情報を踏まえた企業間取引データを再構築。
      • サプライチェーン構築
    • 取引ネットワークの定義
      • 企業:規模、業績、属性
      • 取引:有無、取引高(+推定値)、距離
    • 様々な関係性を取り出す事が出来、取引ネットワークの"力の伝わり方"、"カネの流れ"も見えてくる。
    • 取引ネットワークは力の伝わり方の骨組み/取引データを構造化したDBを用いて新たな気づきを見つける。
  • デジタルの世界を調査する:構造化されていれば、パターンやシグナル(ノイズ)が分かるのではないか。
  • 企業の取引データを構造化する事で企業の戦略や産業の動きが分かるのではないか。

 

  • コネクターハブ』:NHKの番組で取り上げたもの。デジタルの世界を調査。
    • 番組『NHK震災ビッグデータ2』、実はあの『半沢直樹』の番組で、視聴率はイマイチだったらしい...(笑)
    • 震災前の取引22万本→震災後失われた取引2万本。企業の問合せが多かった
    • やったことは、骨組みの上にデータを流し込み、誰が影響力を持つのかを見た。
    • 分析結果が使われ始めている分野
      • 決定プロセスとしての用途:より効果が期待出来る支援先、マッチング先
      • 評価プロセスとしての用途:政策効果評価、予測効果とのギャップ効果
    • 史上最もデータが集まった震災、経済復興支援の決め手がない中でコネクター・ハブに期待が集まる。

 

※番組に関するリンクやメモ等はこちら。オンデマンドですので視聴には料金が掛かります。

講演がひと通り終わった後は4者間で質疑応答タイムに。

Q.求められる要素、逆にデータサイエンティストから求めたい事は?

  • 分析、何に使いたいんですか?精度や内容など明確にして欲しい。
  • 分析はやってみないと分からない事が多い、バックグラウンドを整理して持って来て欲しい。
  • データ分析は、過去のことしか語らない。将来のことしか語らない。前提条件に基づく分析、分析した結果を数字だけ見て意思決定するのはまずい。
  • どうやってその数字が出て来たのか、背景を理解する姿勢を持って欲しい。
  • モニタリングしたいと思っている項目がそもそもログされてなく、取れない事もあった。
  • 事業側にどういう風に関わって欲しいか:事業側にも専門部隊を受け止めてくれる、知識が追いついてくれる事を期待したい。概観を把握してくれる人が重要。
  • 担当者を介して色々なオーダーが挙がってくる。めちゃくちゃくる。でもどれからやる?優先順位をつけて欲しい。目的を明確にして欲しい。ビジネス効果を一緒に考えたい。

Q.経営層をどうやって口説き落とすか?

  • 偉い人が聞き入れてくれるタイミングを見極める。中期経営計画を作成するタイミング等で市場データ、競合データ、などなどを入れればあなたの市場をここまで伸ばせる、影響を与える事が出来るんじゃないですか?と出す。タイミング大事。判断をされる時にデータを差し出し提案する。
  • ビッグデータ=バズワード?社長さんや政治家等も口にするような状況であれば、波に乗るのもひとつのタクティクスなのでは。

Q.人材の獲得、育成について

  • 人が足りん!な状況。筋の良さそうな人を育成 or 外部委託をするにしても良い判断材料を。
  • 初期の段階で何をしているか?を話そう。最初は人が居なかった。1〜2とかその程度。3年位経つと、経営者に説明し、バズワードなども交えながら次第に強化。
  • 「人繋がり」で強化。ネットワーキングの場で知り合いになったり。
  • ネット企業:新卒系、学会等に足を運ぶ事も。
  • 育成:まだ全然。ベーシックに分析のスキル。SQL等の基礎技術を学習してもらう。難しいのはどうやってビジネス課題を落としこんで実務に当てはめていくか。オペレーション、推進していくか。OJTしか無いんじゃないか。体系化したい。

A-3 統計分析を勝ちパターンにつなぐ戦略【ニ部構成】

【一部】ヤフー・ジャパンの“爆速”経営を支えるデータ分析
小間 基裕氏 〔ヤフー〕

  • デジタルデータ活用の方法について
    • ビッグデータ!本当に流行ってますね。
    • amazon/google/fb 価値を上げているような企業、オフラインだとCCC/LOWSON/KOMATSUなど。
    • Yahoo Japanはどうなのか?データカンパニーなのか?→Yes!
    • 検索キーワードの入力補助:ビッグデータを変換した例。ターゲティング広告、レコメンデーション等も利用。
    • 徹底的なライブテスト:縦22ピクセル→28ピクセルで0.6%売上げ増、5億円の売上げ増に。
  • Volume:2人に1人以上のお客様が我々のページをブラウザで見ている。6100万/日
  • Velocity:秒間50000アクセス
  • Variety:様々な100以上のサービスを展開。
  • マルチビッグデータカンパニーへ。
  • 爆速経営をデータで支える。
    • 認知の爆速化:何かが起こってからすぐに知らせたい。1周間では遅い
      • 速報メール(当たり前だが大切)
      • 情報ダッシュボード(データソースがわかれているとダメ、また社外からのアクセス出来るのもコツ)
      • 萌芽検知(マルチビッグデータを活用した、未来予測へのチャレンジ)
        • 流行っていないサービス:横ばい
        • 流行っているサービス:初期に傾きを見つける。
        • リアルタイム検索+検索キーワード→日本でのつぶやき、海外でのつぶやき
        • ニュースと併せて→ニュース記事での言及...等
        • ※過去だけでなく現実をリアルタイムに知る。未来を予測する。
    • 意思決定の爆速化:
      • ABテスト
      • アドホック集計
      • ※意思決定を最速化すべくデータで徹底支援。
    • 実行の爆速化:
      • Hadoopクラスタ
      • Teradataシステム
      • カスタマイズ・連結可能なデータフィード

 

全経営フェーズをデータのチカラ爆速化。

  • 収集・加工・サービスのインフラ
    • アクセス解析システム
    • 効果測定システム
    • データフィード
    • レコメンデーション
  • 収集:
    • アクセスログ、広告ログ等
    • Hadpopクラスタ3500台(日本最大急)、Teradata(ヘビーユーザー日本最大級)

   

  • 技術:
    • 重要なのはシンプルさ
    • 全てのデータ項目を処理対象にしない(コストに拘る)
    • 全てのデータ要素を処理対象にする(クオリティにこだわる)
    • ※見立てを最初に立てる事。サンプリングはしない。ロングデールにも拘る。

4つめのV、「Value」が大切。

  • データサイエンティストとは?
    • 私自身、解答を持ちあわせてはいません。どの『データ***』という呼び名も違う気がする。データスペシャリスト?
    • シェフみたいなもの:お客様を満足させるソリューションをデータで提供。
    • マシン、ストレージ、ネットワーク、食材…
    • お客さまが何を食べたいか、聞く。=ビジネス・データ(システム側)の人間の協業。かならず協業の座組で。
      • 成果の最大化
      • コストの観点
      • 人材育成:協業の枠に入れなさい。ビジネスノウハウの共有が出来る。もっと共有して欲しい。風を共有して欲しい。顕在化しているものだけでなく、潜在化しているニーズも掘り当てる。

 

  • 協業チームの3つのミッション
    • データアクセス:データ資産に適切な複数の手段でアクセス出来るようにする。無くてはならない。
    • 最適化:データを使い倒してサービスやビジネスの最適化最大化を行う。何をやって何をやらないかを選択。
    • イノベーション:データを利活用した新規サービス・ビジネスの創出。0 -> 1を実現する。ベンチャー。

  

  • 組織を動かし、valueを出すまでやり切る意思。
  • ビッグデータは預託されている。誰のものか?データはお客様のもの。あくまで預託して使わさせてもらっている。
  • ビッグデータで夢を見るのは誰?まずはユーザー(お客様)。そして最終的に皆がにっこり。

【二部】「サッカー界」におけるビッグデータの変遷と活用法
杉崎 健氏 〔データスタジアム〕

サッカー界の過去:サッカーとデータの戦い

  • 数字が扱われるようになってきたのは最近。
  • 1863年、association football設立。
  • 省略形socにer(人の意)が付けられ、"サッカー"という名前が使われるようになった。
  • データの歴史:
    • 1800年代後半〜1900年代後半:競技人数、フィールドルールなど
    • 1900年代後半:スコア、ファール数、カード数、CK、FK、これらを用いて表彰等も行われるように。 
  • ご存じですか?フィールドデータのこと。フィールド=105m x 68m、ペナルティエリアも11m等、ちゃんと規格が決められている。

サッカー界の現在

現在は公式データとして集計、レベル毎(Level1:basic data/Level2:game data/Level3:team data/Level4:player data/Level5:localisation data...)に分類している。でもこれでは強くならない。

アクション項目を多く取るようになった。ゴール1つとってもチーム別、個人ごと、成功失敗….様々な切り口で取る。その数1試合で2000〜2500項目。

  • データの作り方と見方
    • 映像を1つずつとめて、独自の入力システムで入力。
    • シュートに至るまでの軌跡図を表示。
    • ビッグデータを使う:数字の大小だけで使ってしまう事は多い。
    • チームとして分かる事は?
      • 前からのプレsがかかっていたのか?
      • 手数を掛けずにシュートまで持って行けたのか?
    • 主観をビッグデータを絞り込む事で見て検証。
  • データ分析で失敗する事例とは?
    • 数値の大小だけで判断する。(※これは危険。)
    • 数値の現象だけで判断する。
    • 原因を考えずに判断する。
    • ※数字が出た時に、理由を考える。どうすれば良いのかを考える。

  • Jリーグクラブ=プロの目線とは。以下サイクルでビッグデータを利用。
    • ゲーム分析:現象、原因、カイゼンすべき点
    • プランニング
    • トレーニング&コーチング
    • ゲーム

サッカー界の未来

  • 恐らく、スポーツ界の未来にも繋がるのでは。
  • トラッキングデータ(Level 7: Tracking)...ピッチでプレーする22選手の動きに関するデータ。トラッキングシステム:AMISCO(アミスコ:フランスの会社)が例として紹介されていた。これにはデータスタジアムもパートナーとして動いているらしい。また、このシステム、昔のミサイル追尾システムを応用して選手の動きを追跡するカメラで追跡しているそう。
  • Amisco
  • [swf]http://www.youtube.com/watch?v=qA4SjGjvs8E,500,350[/swf]

  • トラッキングデータで、走行距離/スピード毎の走行距離/方向別/状況別/ポジショニング等様々な情報が分かるようになってきた。
  • トラッキングデータがあると、どういう動きをしたか、どこで何の為にどの程度の速さで動いたかという点が分かる。
  • 今後は、ビッグデータの深さが更に深化。L1,2 -> L3〜6 -> L7へ。
  • 大分情報は得られて来たが、まだ取り切れていない部分も多い。はみ出した部分としては…3Dデータも取れるようになっていくのでは。更には筋力や体力など、フィジカルデータも。サッカーに関わらず、スポーツの分野としてもより深さと幅が広まるように。主観のみ<客観のみ<主観+客観
  • 重要なのはデータの原因、現象を熟考する事。なんでそうなったのかを熟考してこそデータも生きてくる。

まとめ

という訳で『ビッグデータ』という括りで、幾つかセッションを聴講してきましたが、ビッグデータ周りに取り組む上での幾つかの示唆が得られたのは個人的には収穫でした。沢山のデータとBIツールがあれば何か見えてくるんじゃなかろうか、という偶然性を期待する事よりも、手元にある(ビッグ)データからビジネス(やある目的)を達成するために何を得たいのか、そのためにどういう分析をしたいのかというビジョンを持って臨む事でより効果的な結果が得られる点についてはなるほど確かにと思うところはありました。この点は最近購入して読んでいたBi関連書籍でも言及されていました。ビッグデータに対する時の考え方、取り組み方については他にもポイントはありそうなので色々と吸収して行きたいですね。

また、『データサイエンティスト』に求められる資質やスキルについても多岐に渡りかつレベルの高いものが求めらている訳ですが、この辺についても(ハナから条件を満たす人はそうそういないのですし)出来る部分から1個ずつ取り組んでいく事でその理想にも近づけていけるんじゃないかと思います。