Tableau Desktop 10 新機能:クラスタリング #tableau

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

Tableau 10 新機能紹介シリーズ、当エントリは『クラスタリング機能に関する、正式リリース前の先取り内容紹介となります。

クラスタリングとは、ある集団(消費者、ブランドなど)を、意味のあるグループに分けたい時に用いるセグメンテーション手法の一つです。例えば、クラスタリングを活用すると、購買履歴データから「お酒をよく買うクラスター」「炭酸飲料をよく買うクラスター」「水しか飲まないクラスター」などを抽出できます。

tableau10-comming-soon_00

セグメンテーションとは、マーケティング環境分析の結果を踏まえて、不特定多数の人々を同じニーズや性質を持つ固まり(セグメント)に分けること。

クラスタリングしてみる

今回のこの機能を試すために、Tableauに付属している「世界指標」を使用して実際に動かしてみます。

  • まずは、保存されたデータソースから、「世界指標」をクリックします。 サンプルデータ
  • クラスタリングの下準備をします(この作業しないと、クラスタ機能を持つアナリティクスペインが選択できません)。
    • ディメンションの「国」をダブルクリック。
    • ディメンションの「年」をフィルターにドラッグ。
    • 「フィールドのフィルターダイアログ」から、「年」を選択。
    • 「リスト選択」から「2012」を選択してOK。
    • メジャーの「出生率」を「マークのカラー」にドラッグ。

  • クラスタリングを実施する。
    • アナリティクスペインを選択して、「クラスター」をビューにドラッグ。

スクリーンショット 2016-06-13 15.25.11

  • すると、「クラスタリングダイアログの変数ボックス」が立ち上がります。そこに、クラスタリングしたい変数をドラッグ。ここでは、「出生率」「総人口」「GDP」を加えます。
  • 希望のセグメント数を指定します。ここでは「5」にします。

クラスタボックス

※ここでの変数選択に分析的な深い意味ありません。実際の処理では相関が高い変数は、どちから一方だけにした方が良いです。

※セグメント数の指定については、検討が必要です。AIC(赤池情報量規準)を利用したり、デンドログラムの分かれ目から判断するなどの方法があります。まだ、これがベストだという方法は確立していません。

赤池情報量規準 - Wikipedia

赤池情報量規準(あかいけじょうほうりょうきじゅん; 元々は An Information Criterion, のちに Akaike's Information Criterionと呼ばれるようになる)は、統計モデルの良さを評価するための指標である。

分析手法解説 :デンドログラム

デンドログラムとは、分析の対象となる個体がまとめられていく様を樹形図の形で表したものです。

  • クラスタの結果を保存します(これでクラスタを軸とした分析が可能になります)。
    • マークの「クラスタ」をデータペインにドラックする。

スクリーンショット 2016-06-13 15.24.13

まとめ

以上、Tableau 10の新機能、『クラスタリング』を実際に試してみたエントリーでした。

本エントリーでは「世界指標」のサンプルデータを利用して、「出生率」「総人口」「GDP」を基にクラスタリングを実施してみました。「出生率」「総人口」「GDP」が近い国同士が同じ色で表現されているはずです。

今後、Tableauに多変量解析の機能が充実していきそうな予感がします。様々なデータからセグメンテーションができることは分析の持ち駒が増えますね。期待で胸が膨らみます。