データサイエンティスト協会 木曜勉強会#02 に参加してきた
1年少々前からTableau、そして最近はTreasure DataやTalendといったビッグデータや分析周りのプロダクトと連携を取ることが多くなり、また自身の携わる分野もその辺りにフォーカスする事が増えて来た今日この頃ですが、今月10月から分析周りの国内総本山とも言うべきデータ『サイエンティスト協会』主催による勉強会が開催されるようになりました。
開催場所は前回第1回目に引き続きの株式会社ブレインパッド@白金台。参加定員60名余のところに倍の120名近いキャンセル待ちが出るなど、非常に注目度の高いイベントとなっていました。
当エントリではその第2回目となる『#02』の模様及び前回第1回の内容に関する概要について御紹介したいと思います。
目次
『データサイエンティスト協会 木曜勉強会』について
こちらは名前に冠されている様に『データサイエンティスト協会』主催による不定期開催(開催曜日は木曜日だが、周期が不定期との事)のイベントになります。データサイエンティストのコミュニティ形成・情報発信・人材育成、支援等多岐に亘る活動指針を掲げています。
現在調整中のものも含め、幾つか興味深そうなイベントも今後控えている模様。個人的にも興味を引かれそうなテーマのものがあったので、機会があればまた参加してみたいと思います。
前回第1回について
当イベントの第1回目については、2週間前の2014年10月02日に同じ会場で開催されていました。以下にその際の発表資料等が公開されています。
第2回レポート: 『クレンジングからビジュアライズまで!実践!データ解析超入門!』
- 登壇者:近藤 康一朗氏 (株式会社電通 統合データ・ソリューションセンター データ・マネジメント部)
そして今回第2回のレポートはこちらの近藤氏発表のセッションにフォーカスを当てて御紹介して行きたいと思います。
セッション発表時間は1時間、セッション枚数は70枚とこの時点でコンテンツの濃度としては結構なものがあったのですが、スライド1枚1枚も本人が当日の発表で断りを入れる程(駆け足で進めます/内容については資料を公開しますので後程じっくりお読みください、等)に情報量てんこ盛りな内容となっておりました。
当日の説明内容も比較的駆け足で進められていたので参加メモについてもざっくりな感じに留めておき、またオススメの書籍等のリンクを展開するに留めておきたいと思います。では以下メモ。
- 依頼主は『アウトプット』を求めている。知識・手法を総動員し、依頼主の求めるものを把握する事が大事。
- スキルはアウトプットの為の手段に過ぎない。データサイエンティストは基本的にアウトプットの為の技能とスキルを鍛えるべし。
- 分析はサバイバルである:限られた資源(時間・データ)を駆使し、依頼主の要求に応える。
- データサイエンティストは"ジェネラリスト"であるべき:全領域で『共通言語』について行ける幅の広さが求められる。
- 一般的な分析の流れ:
- 今回のセッションでは『ニコニコ動画のコメント等データ』(※今回使ったのは動画メタデータ)を用いた各種作業の解説を行う事で、作業の流れを追う。
- wgetでデータ収集:実はwget、便利なクローリングツールでもある。
- データの中身はjsonファイル。pythonで処理してSQLで利用出来る形式に変換。
- SQLiteにデータ投入、内容の確認。
- データを集計し、概略を掴む:情報の"肌感"を掴んでおくことは大事。『異常値』に対する感性が出てくる。また、仮説を立てる際の参考にもなる。
- 分析設計と分析用データの再作成
- どんなデータの分析をしたら面白いか?を考える。
- 分析の切り口=アイデア。ヒントになる、意思決定に繋がりやすいアウトプットの切り口を探る。分析は以下のいずれかに当てはまる。(※近藤氏の考え)
- 1.まとめる/分ける:MECE、ペア思考、フレームワーク、ターゲットと『それ以外』
- 2.新指標を作る:因数分解をしてみる、四則演算をしてみる
- 3.比較する:時系列での比較(変化)、属性毎での対比
- アイデアを出しやすい分析フレームを盗む。参考書籍:Amazon.co.jp: 意思決定のための「分析の技術」―最大の経営成果をあげる問題発見・解決の思考法 (戦略ブレーンBOOKS): 後 正武: 本
- 時系列の分析データを作る:pentahoを利用して動画毎の集計データを日x時間帯別のデータとして集計。
- pentaho等、データ加工ツールのメリット:pentaho等のデータ加工ツールのメリット:一度設定を行えば再生ボタンを押すだけで処理全てが自動化される。定期的に行う作業やコードを書けない人によるデータ加工処理に適切。
- データクレンジング by UNIX:色々使える。速い/簡単/安い(タダ)と良いところ尽くし。しかし処理の際はデータ加工に伴う難題も色々とある。
- 簡易ビジュアリゼーション
- Rを使った解析
- 摩耗分析について:当セッションではこれについて少し掘り下げてみる。
- 出来ないデータの内容の場合がある。アップロード日というデータがあるだけで、アップロードされてからの経過日数を使い、1日当たりの再生数を弾き出す。
- 分析にぴったりのデータが出てくる事はなかったりする。替わりに使えるデータがあればそれを使って補う。なければそれを代替出来るような数値や仕組みを使う。
- EXCELの回帰で単純なモデル化を行ってみる:これも悪くはない。
- 統計オススメ書籍:久保さんの本については関連するyoutube動画アリ。
- Amazon.co.jp: 統計学入門 (基礎統計学): 東京大学教養学部統計学教室: 本
- Amazon.co.jp: 「逆」引き 統計学 実践統計テスト 100: ゴッパル・ケー・カンジ, 池谷 裕二, 久我 奈穂子: 本
- Amazon.co.jp: データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学): 久保 拓弥: 本
- Amazon.co.jp: 戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック: Foster Provost, Tom Fawcett, 竹田 正和(監訳), 古畠 敦, 瀬戸山 雅人, 大木 嘉人, 藤野 賢祐, 宗定 洋平, 西谷 雅史, 砂子 一徳, 市川 正和, 佐藤 正士: 本
- Rのオススメ書籍:中でも1つ目は特にオススメ。
- 非線形回帰に関する解説
- テキストマイニング:現在ホットな分野。辞書を整備する事がとても大事。実際携わられている人の話ではこの点(辞書整備)で相当大変な思いをされているとの事。
- ダッシュボードデザイン
- ダッシュボードを学ぶ為の教材
- 書籍
- リンク
- 抜粋:可視化の際の8つの原則(とても大事な点なので赤太字で強調しときます)
- 1.シンプルなダッシュボードを作ろう。19個以上の要素はいらない。
- 2.センセーショナルな"比較"を入れよう。詳細なんて覚えられない。
- 3.よりデータにアクセスしやすい環境を提供しよう
- 4.ただ、見ること、それだけで何かが発見出来るようにしよう
- 5.多様性が確認出来るような包括的なものを作ろう
- 6.何が起きたかよりも何故起きたかを考えよう
- 7.懐疑的になって、色んな質問を繰り返そう
- 8.データを様々な場所にシェアしよう
まとめ:本日伝えたいこと
まとめ:Dashboard構築前に考えるべきこと
まとめ
以上、簡単に振り返ると言いつつも重要ポイントてんこ盛りだったので言及する箇所が増えてしまった感のあるレポートでした。セッションスライド資料自体が非常に丁寧に且つ詳細に纏められているので、このスライド資料を元に復習・学習をして行くだけでも相当力が付くのではないでしょうか。私自身も非常に勉強になる部分が多かったです。可視化デザインの部分についても、文字だけではいまいち掴みづらいコツも実際にビューやダッシュボードを目の前にすると効果が一目で分かるのでとても良いですね。やはりこの辺りは実践数をこなして身につけていくのが一番でしょう。
セッションで用いられたTableauダッシュボードについては、近藤さんのブログからダウンロードが可能となっています。Tableau Reader(無償利用可能)をインストールすることで実際に触ってみる事も出来るので興味のある方は是非その操作感を試してみてください。
登壇・発表された近藤さん、及び関係者の皆様ありがとうございました!第3回以降のイベントについても折を見て参加して行きたいと思います。こちらからは以上です。