【データ分析】解釈するときは、何かと比べてみよう

2016.07.07

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、lichtです。EURO最高ですね。イタリアが負けってしまったので、個人的には残念ですが、4年に1度のこの時期はとても楽しいです。

さて、本題ですが、、、、

今まではTableauに関するブログをアップしてきました。ようやく、本業に関するデータ分析に関するエントリを書きました。

以前のエントリで、【Tableau】クロス表の色付けをカスタマイズして、解釈しやすくする で、下記のように書きました。

※分析は「比較すること」「何と比較するか」がとても大切です。この辺り、今後のブログで触れらればと思っております。

本エントリは、その内容についてになります。

引用の通り、

  1. 比較すること
  2. 何と比較するか

の構成で進めます。

比較すること

次の棒は長いですか?短いですか?

そう問われたら、どんな方法をとりますか?

スクリーンショット 2016-06-27 17.57.50

答えは、他の棒を持ってきて比べるです。

スクリーンショット 2016-07-04 13.33.08

こうすると、一目瞭然で先ほどの棒は、他の棒に比べ、短いことが分かります。棒1本ではそれが長いか、短いか判断できませんでしたが、これなら長いか短いか分かります。

何を伝えたかったかと言うと、分析結果(棒の長さ)を対して、必ず比較対象(一般的な棒の長さ)を入れて、結果を解釈しましょうということです。

比較することで、その対象の相対的な評価が可能になるわけです。

少し話は逸れますが、比較せずとも分かるよと思った方がいるかもしれません。ただ、これは既知に得た情報で処理しているにすぎません。例えば、身長が190センチだったら高いじゃんと思うわけです。しかし、これは日本人の平均的な身長を知識として持っているからで、頭の中でその知識と比較しているからなのです。

では、何と比較するのか

それは次の3つを押さえることが大切と思っています。説明の便宜上、比較選定の1・2・3と呼びます。

  1. 同質であること
  2. 重複が極力ないこと
  3. 十分なn数が確保できていること

1.同質であること

棒の長さと人の身長を比べていけません。あくまで、「棒」と比べるのは「棒」であるべきです。その際は、ギネス級の長さの棒のような外れ値とも比較してはいけません。

スクリーンショット 2016-07-04 13.33.22

2.重複が極力少ないこと

20代と男性20代を比較するのは、避けるべきです。なぜなら、20代の中に男性20代が含まれているので、同じものを比較していると同義だからです。この場合は男性20代と女性20代を比較することが望ましいです。

スクリーンショット 2016-07-07 14.43.05

3.十分なn数が確保できていること

nとは、標本数(サンプル数)を指します。男性のn数が100人、女性のn数が20人であれば、女性の結果が極端に出ている可能性が高いです。この例ならば、女性1人の意見を5倍結果に影響を与えてしまっています。

スクリーンショット 2016-07-04 13.33.32

最後に

比較選定の1・2・3は、いずれも当たり前な話に聞こえるかもしませんが、分析が複雑になると、意外に陥りやすい落とし穴です。

また、分析と聞くと、複雑な統計処理を連想してしまう方もいるかもしれませんが、比較だけでも十分な分析が可能になると考えています。

分析結果の解釈に悩んだら、何かを持ってきて比較してみてください。そうすれば、何か見えてくるかもしれません。