Association Analysis(アソシエーション分析) | Alteryx Predictive Tools 道場 Advent Calendar 2018 #02
こんにちは、にいのです。
当エントリは『Alteryx Predictive Tools 道場 Advent Calendar 2018』の02日目のエントリです。ついに12月です。年の瀬です。2018年はPredictive Toolで締めくくりましょう。
クラスメソッド Alteryx Predictive Tools 道場 Advent Calendar 2018 - Qiita Alteryx Predictive Tools 道場 Advent Calendar | シリーズ | DevelopersIO
今回ご紹介するのはアソシエーション分析のサンプルワークフローについてです。データ分析のプロである弊社じょんすみすが下記ブログで数式も混じえながら詳しく説明していますが、本エントリはAlteryx初心者、データ分析初心者の私が勉強して奮闘した記録として書き記していこうと思います。
前提条件
Alteryxは「Alteryx Designer / Version 2018.4」を利用しています。
Association Analysis(アソシエーション分析)ワークフローとは
Alteryxでは、Predictive Toolを使用したサンプルワークフローを参照することができます。[Help]→[Sample Workflows]→[Predictive Tool samples]から参照可能です。参照にはAlteryx Predictive Tools with Rがインストールされている必要があります。
今回ご紹介するAssociation Analysis(アソシエーション分析)のワークフローはこちらです。
ワークフローの説明にも書かれている通り、アソシエーション分析マクロを使用して完全相関係数行列と対応するp値の行列を作成するためのワークフローです。
This workflow demonstrates how to use the Association Analysis macro to produce a full correlation matrix and a matrix of corresponding p-values.
インプットファイル
インプットに使用されているデータは以下の通りです。自動車の燃費(MPG)、シリンダーや排気量などのデータセットです。データ自体は機械学習の分析に使用可能なデータセットが取得できるMachine Learning Repositoryのものです。
Association Analysis Tool
Alteryxで提供されているAssociation Analysis Toolでは、下記3つの手法で分析が可能です。
- ピアソン積率相関係数
- スピアマンの順位相関係
- ヘフディングのD統計
このサンプルワークフローでも1つのインプットデータに上記3通りの分析を行なっています。Association Analysis ToolのI
のアンカーに紐づいているBrowse Toolをクリックすると、それぞれの手法で計算された相関行列がヒートマップで表示されます。
左図をマウスオーバーすると値が、クリックすると右図に散布図が表示されます。値は-1〜1の間で表示されており、-1に近づくほど青く、1に近づくほど赤く表現されます。0に近いほど2つの値には相関がない状態となります。
ピアソン積率相関係数
スピアマンの順位相関係
ヘフディングのD統計
Join Tool
Association Analysis ToolのR
アンカーでは分析結果をテーブルで参照することができます。
このサンプルワークフローではR
アンカーをJoin Toolに繋げ、分析した3通りの結果をまとめて表示するように結合しています。
Layout Tool/Render Tool
前項でまとめた3つの分析結果を比較できるように出力します。今回はhtml形式で出力していますので、実行結果のリンクをクリックすることで結果を確認できます。
出力結果は以下の通りです。
ピアソン積率相関係数 「Focused Analysis on Field Trans」では、Association Analysis ToolのTarget Fieldとして選択した「Trans(トランスミッション)」にフォーカスした結果が表示されています。1に近いほど相関があるので、トランスミッションとGear(ギア数)には相関がありそうです。
スピアマンの順位相関係
ヘフディングのD統計
おわりに
Predictive Analysis Samplesより、Association Analysis Toolのご紹介をしました。このツールはデータ内の関係や回帰などの予測モデルにどの変数を使用するか判断するのに便利です。ぜひ一度お試しください。
明日03日目は大高大輔による「Principal Components (主成分分析)」の予定です。おたのしみに!