Alteryxで主成分分析をしてみる #alteryx #18 | Alteryx Advent Calendar 2016

alteryx

こんにちは、DI部の川崎です。

当エントリは「Alteyx Advent Calendar 2016」の18日目のエントリです。

今回は主成分分析をAlteryxで行ってみます。

主成分分析とは

主成分分析は、多変量解析の一手法でデータを要約する分析手法です。情報の損失をなるべく少なくしながら、多次元データをより少ない変数で表現できるように新しい変数(合成変数)を作り出します。(次元の縮約)マクロミルさんのサイトから、主成分分析の概要を引用します。

主成分分析とは、多変量データを統合し、新たな総合指標を作り出すための手法といえます。多くの変数に重み(ウェイト)をつけて少数の合成変数を作るのが主成分分析です。重みのつけ方は、合成変数ができるだけ多く元の変数の情報量を含むようにします。できるだけ多くの情報をもつ合成変数(主成分)を順次作っていきます。

主成分分析とは|市場調査・アンケート調査のマクロミル http://www.macromill.com/landing/words/b007.html

【参考】
はじめよう多変量解析~主成分分析編~
http://www.slideshare.net/sanoche16/tokyor31-22291701
主成分分析「使ってみたくなる統計」シリーズ第4回 | ビッグデータマガジン
http://bdm.change-jp.com/?p=2761
アンケート結果をもとに、缶コーヒーを効果的に陳列せよ! データから「新たな軸」を見つける主成分分析とは? (1/4):MarkeZine(マーケジン)
https://markezine.jp/article/detail/16870

Alteryxで主成分分析のサンプルを実行する

[Help]-[Sample Workflows]-[Predictive Analytics]-[3 Principal Components] を開きます。

WS000028

主成分分析のツールは「Predictive Grouping」の中にある「Principal Components」になります。

WS000030

先ほどのワークフローを実行してみます。(Ctrl+R、もしくはツールバーから「Run Workflow」のアイコンを選択)

WS000032

上記のHTMLファイルの部分をクリックすると、実行結果が表示されます。内容は下記の通りです。

table1

各主成分のスクリープロット。

10

「第1主成分」から「第4主成分」までのバイプロット。

11 12 13 14 15 16

各回答者(n=168)の「第1主成分」「第2主成分」の主成分得点の折れ線グラフ。

21

データセットについて

サンプルでは、Rの「BCA」パッケージにも同梱されている「Athletic」というデータセットをインプットとして利用しています。

Athletic | RDocumentation

https://www.rdocumentation.org/packages/BCA/versions/0.9-3/topics/Athletic

内容は、アメリカの大学でステークホルダー分析に関する調査を行った際の、アメリカの大学スポーツの分野で成功したと判断される要因として、何の影響が大きいのか、7つの指標を基にコンジョイント分析を行った結果のデータセットとなっております。サンプル数は168です。

変数名 内容
Win チームの勝敗
Grad 学生アスリートが大学を卒業できる割合
Violat 大学スポーツの倫理基準を遵守すること
Attnd 競技に関心を持ってもらうこと(観客動員数)
Fem 性別による公平さ
Teams 競技の広がり(チーム数の多さ)
Finan 経済状態(黒字か赤字か)
出典:Wolfe, Richard A. and Daniel S. Putler (2002), "How Tight are the Ties that Bind Stakeholder Groups?, Organizaton Science, 13(January-February), 64-82.
https://pdfs.semanticscholar.org/3244/11b788c8212408e9e34973c9dbb27e94060b.pdf

データの内容:

03_data

実行結果について

実行結果の解釈については、ここでは触れませんが、下記の資料が大変参考になります。

(Alteryxの「Principal Components」ツールは内部的に、Rのprcomp関数を使用しています。下記資料はprcomp関数の使い方と結果の解釈の仕方が記述されています)

【参考】
 「R」による主成分分析|統計科学研究所
 http://www.statistics.co.jp/reference/software_R/statR_9_principal.pdf

最後に

このエントリーでは、Alteryxの主成分分析のサンプルを試してみました。主成分分析が、コードを書くことなく、簡単に実行できることがおわかりいただけたかと思います。

明日19日目は大場の「Excel をインプットしたときに仮名文字がはいってしまうことへの代替案」の予定です。明日もお楽しみに!