Alteryxで主成分分析をしてみる #alteryx #18 | Alteryx Advent Calendar 2016
こんにちは、DI部の川崎です。
当エントリは「Alteyx Advent Calendar 2016」の18日目のエントリです。
今回は主成分分析をAlteryxで行ってみます。
主成分分析とは
主成分分析は、多変量解析の一手法でデータを要約する分析手法です。情報の損失をなるべく少なくしながら、多次元データをより少ない変数で表現できるように新しい変数(合成変数)を作り出します。(次元の縮約)マクロミルさんのサイトから、主成分分析の概要を引用します。
主成分分析とは、多変量データを統合し、新たな総合指標を作り出すための手法といえます。多くの変数に重み(ウェイト)をつけて少数の合成変数を作るのが主成分分析です。重みのつけ方は、合成変数ができるだけ多く元の変数の情報量を含むようにします。できるだけ多くの情報をもつ合成変数(主成分)を順次作っていきます。
主成分分析とは|市場調査・アンケート調査のマクロミル http://www.macromill.com/landing/words/b007.html
【参考】
はじめよう多変量解析~主成分分析編~ http://www.slideshare.net/sanoche16/tokyor31-22291701
主成分分析「使ってみたくなる統計」シリーズ第4回 | ビッグデータマガジン http://bdm.change-jp.com/?p=2761
アンケート結果をもとに、缶コーヒーを効果的に陳列せよ! データから「新たな軸」を見つける主成分分析とは? (1/4):MarkeZine(マーケジン) https://markezine.jp/article/detail/16870
Alteryxで主成分分析のサンプルを実行する
[Help]-[Sample Workflows]-[Predictive Analytics]-[3 Principal Components] を開きます。
主成分分析のツールは「Predictive Grouping」の中にある「Principal Components」になります。
先ほどのワークフローを実行してみます。(Ctrl+R、もしくはツールバーから「Run Workflow」のアイコンを選択)
上記のHTMLファイルの部分をクリックすると、実行結果が表示されます。内容は下記の通りです。
各主成分のスクリープロット。
「第1主成分」から「第4主成分」までのバイプロット。
各回答者(n=168)の「第1主成分」「第2主成分」の主成分得点の折れ線グラフ。
データセットについて
サンプルでは、Rの「BCA」パッケージにも同梱されている「Athletic」というデータセットをインプットとして利用しています。
Athletic | RDocumentation
https://www.rdocumentation.org/packages/BCA/versions/0.9-3/topics/Athletic
内容は、アメリカの大学でステークホルダー分析に関する調査を行った際の、アメリカの大学スポーツの分野で成功したと判断される要因として、何の影響が大きいのか、7つの指標を基にコンジョイント分析を行った結果のデータセットとなっております。サンプル数は168です。
変数名 | 内容 |
Win | チームの勝敗 |
Grad | 学生アスリートが大学を卒業できる割合 |
Violat | 大学スポーツの倫理基準を遵守すること |
Attnd | 競技に関心を持ってもらうこと(観客動員数) |
Fem | 性別による公平さ |
Teams | 競技の広がり(チーム数の多さ) |
Finan | 経済状態(黒字か赤字か) |
出典:Wolfe, Richard A. and Daniel S. Putler (2002), "How Tight are the Ties that Bind Stakeholder Groups?, Organizaton Science, 13(January-February), 64-82. https://pdfs.semanticscholar.org/3244/11b788c8212408e9e34973c9dbb27e94060b.pdf
データの内容:
実行結果について
実行結果の解釈については、ここでは触れませんが、下記の資料が大変参考になります。
(Alteryxの「Principal Components」ツールは内部的に、Rのprcomp関数を使用しています。下記資料はprcomp関数の使い方と結果の解釈の仕方が記述されています)
【参考】 「R」による主成分分析|統計科学研究所 http://www.statistics.co.jp/reference/software_R/statR_9_principal.pdf
最後に
このエントリーでは、Alteryxの主成分分析のサンプルを試してみました。主成分分析が、コードを書くことなく、簡単に実行できることがおわかりいただけたかと思います。
明日19日目は大場の「Excel をインプットしたときに仮名文字がはいってしまうことへの代替案」の予定です。明日もお楽しみに!