データサイエンティスト協会 木曜勉強会#02 に参加してきた

2014.10.17

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

1年少々前からTableau、そして最近はTreasure DataやTalendといったビッグデータや分析周りのプロダクトと連携を取ることが多くなり、また自身の携わる分野もその辺りにフォーカスする事が増えて来た今日この頃ですが、今月10月から分析周りの国内総本山とも言うべきデータ『サイエンティスト協会』主催による勉強会が開催されるようになりました。

開催場所は前回第1回目に引き続きの株式会社ブレインパッド@白金台。参加定員60名余のところに倍の120名近いキャンセル待ちが出るなど、非常に注目度の高いイベントとなっていました。

dsci-2nd-01

当エントリではその第2回目となる『#02』の模様及び前回第1回の内容に関する概要について御紹介したいと思います。

目次

『データサイエンティスト協会 木曜勉強会』について

こちらは名前に冠されている様に『データサイエンティスト協会』主催による不定期開催(開催曜日は木曜日だが、周期が不定期との事)のイベントになります。データサイエンティストのコミュニティ形成・情報発信・人材育成、支援等多岐に亘る活動指針を掲げています。

dsci-2nd-14

dsci-2nd-02

現在調整中のものも含め、幾つか興味深そうなイベントも今後控えている模様。個人的にも興味を引かれそうなテーマのものがあったので、機会があればまた参加してみたいと思います。

dsci-2nd-03

dsci-2nd-04

前回第1回について

当イベントの第1回目については、2週間前の2014年10月02日に同じ会場で開催されていました。以下にその際の発表資料等が公開されています。

第2回レポート: 『クレンジングからビジュアライズまで!実践!データ解析超入門!』

  • 登壇者:近藤 康一朗氏 (株式会社電通 統合データ・ソリューションセンター データ・マネジメント部)

そして今回第2回のレポートはこちらの近藤氏発表のセッションにフォーカスを当てて御紹介して行きたいと思います。

セッション発表時間は1時間、セッション枚数は70枚とこの時点でコンテンツの濃度としては結構なものがあったのですが、スライド1枚1枚も本人が当日の発表で断りを入れる程(駆け足で進めます/内容については資料を公開しますので後程じっくりお読みください、等)に情報量てんこ盛りな内容となっておりました。

当日の説明内容も比較的駆け足で進められていたので参加メモについてもざっくりな感じに留めておき、またオススメの書籍等のリンクを展開するに留めておきたいと思います。では以下メモ。


  • 依頼主は『アウトプット』を求めている。知識・手法を総動員し、依頼主の求めるものを把握する事が大事。
  • スキルはアウトプットの為の手段に過ぎない。データサイエンティストは基本的にアウトプットの為の技能とスキルを鍛えるべし。
  • 分析はサバイバルである:限られた資源(時間・データ)を駆使し、依頼主の要求に応える。
  • データサイエンティストは"ジェネラリスト"であるべき:全領域で『共通言語』について行ける幅の広さが求められる。
  • 一般的な分析の流れ:
    • 要件定義に時間を割くべきである。でないと、アウトプットがクオリティの高いものにならない。どんなアウトプットを必要とするのか、という確認の精度を高める。
    • dsci-2nd-05
  • 今回のセッションでは『ニコニコ動画のコメント等データ』(※今回使ったのは動画メタデータ)を用いた各種作業の解説を行う事で、作業の流れを追う。
  • wgetでデータ収集:実はwget、便利なクローリングツールでもある。
  • データの中身はjsonファイル。pythonで処理してSQLで利用出来る形式に変換。
  • SQLiteにデータ投入、内容の確認。
  • データを集計し、概略を掴む:情報の"肌感"を掴んでおくことは大事。『異常値』に対する感性が出てくる。また、仮説を立てる際の参考にもなる。
    • dsci-2nd-06
  • 分析設計と分析用データの再作成
    • どんなデータの分析をしたら面白いか?を考える。
    • 分析の切り口=アイデア。ヒントになる、意思決定に繋がりやすいアウトプットの切り口を探る。分析は以下のいずれかに当てはまる。(※近藤氏の考え)
      • 1.まとめる/分ける:MECE、ペア思考、フレームワーク、ターゲットと『それ以外』
      • 2.新指標を作る:因数分解をしてみる、四則演算をしてみる
      • 3.比較する:時系列での比較(変化)、属性毎での対比
    • アイデアを出しやすい分析フレームを盗む。参考書籍:Amazon.co.jp: 意思決定のための「分析の技術」―最大の経営成果をあげる問題発見・解決の思考法 (戦略ブレーンBOOKS): 後 正武: 本
    • 時系列の分析データを作る:pentahoを利用して動画毎の集計データを日x時間帯別のデータとして集計。
    • pentaho等、データ加工ツールのメリット:pentaho等のデータ加工ツールのメリット:一度設定を行えば再生ボタンを押すだけで処理全てが自動化される。定期的に行う作業コードを書けない人によるデータ加工処理に適切。
    • データクレンジング by UNIX:色々使える。速い/簡単/安い(タダ)と良いところ尽くし。しかし処理の際はデータ加工に伴う難題も色々とある。
  • 簡易ビジュアリゼーション
    • 何をわかって欲しいかが決まると、分かり易い表現が決まる。
    • わかってほしいことの整理を行う。この対象となるものをビジュアルで表現する事が条件となる。今回の場合だと、
      • 深夜帯のアップロードが多い
      • 平日に比べ、休日が多い
      • 日曜は昼からアップロードが増え始める
      • 朝方のアップロードは少ない
    • 改善作業
      • 1.要素を加える:色の濃淡を付けてみるが、直感的な理解までには至らない。
      • dsci-2nd-07
      • 2.要素を抜く:この点は、日本人は中々出来ていない部分。EXCEL帳票に慣れてしまっていると、この部分を変える事に中々踏み切れないケースが多い。
      • dsci-2nd-08
      • 3.わかりやすさを更に突き詰める
      • dsci-2nd-09
      • 4.役立つアウトプットにするためにアクションを入れる

まとめ:本日伝えたいこと

dsci-2nd-12

まとめ:Dashboard構築前に考えるべきこと

dsci-2nd-13

まとめ

以上、簡単に振り返ると言いつつも重要ポイントてんこ盛りだったので言及する箇所が増えてしまった感のあるレポートでした。セッションスライド資料自体が非常に丁寧に且つ詳細に纏められているので、このスライド資料を元に復習・学習をして行くだけでも相当力が付くのではないでしょうか。私自身も非常に勉強になる部分が多かったです。可視化デザインの部分についても、文字だけではいまいち掴みづらいコツも実際にビューやダッシュボードを目の前にすると効果が一目で分かるのでとても良いですね。やはりこの辺りは実践数をこなして身につけていくのが一番でしょう。

セッションで用いられたTableauダッシュボードについては、近藤さんのブログからダウンロードが可能となっています。Tableau Reader(無償利用可能)をインストールすることで実際に触ってみる事も出来るので興味のある方は是非その操作感を試してみてください。

登壇・発表された近藤さん、及び関係者の皆様ありがとうございました!第3回以降のイベントについても折を見て参加して行きたいと思います。こちらからは以上です。