Principal Components (主成分分析) | Alteryx Predictive Tools 道場 Advent Calendar 2018 #03

2018.12.03

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

こんにちは。DI部の大高です。

当エントリは『Alteryx Predictive Tools 道場 Advent Calendar 2018』の03日目のエントリです。

クラスメソッド Alteryx Predictive Tools 道場 Advent Calendar 2018 - Qiita

Alteryx Predictive Tools 道場 Advent Calendar | シリーズ | DevelopersIO

前提条件

Alteryxは「Alteryx Designer / Version 2018.4」を利用しています。

Principal Components (主成分分析) ワークフローとは

Alteryxを開き「ヘルプ > サンプルワークフロー > Predictive tool samples > Predictive Analytics > 3 Principal Components」から開くことができます。

実際に開いたワークフローがこちらです。

ワークフローの概要として記載されているとおり、このワークフローは「主成分分析のデモワークフローで、初期データセットの閲覧や予測モデル作成に活用するためのワークフロー」となっています。

This workflow demonstrates how to run a Principal Components analysis within Alteryx. It is a useful way to explore a data set initially and to make predictive models.

なお「主成分分析」コンポーネントは「予測グルーピング」タブから利用することができます。

主成分分析とは?

主成分分析のコンポーネントの説明には以下のように記載されています。

分かったような分からないような分からないような・・・。データの次元数を減らして要約してくれるということでしょうか。ウェブで調べたところ、もう少し分かりやすい説明が記載されたサイトを見つけました。

主成分分析の考え方 | Logics of Blue

主成分分析とは何をするものでしょうか。 一言でいうと、下の図のように「散布図にそれっぽい線(軸)を引くこと」となります。

なるほど。わかりやすいですね。

では、まずは実際にワークフローを実行してみましょう。

実行結果

実行結果はHTMLに出力してくれるようです。画像キャプチャした結果は以下のとおりとなります。「バイプロット」(Biplot)に「それっぽい線(軸)」が引かれていますね。

各ツールの確認

サンプルワークフローでは各ツールの説明も記載されているので、それぞれ確認してみます。

テキスト入力ツール

テキスト入力ツールを使用して、主成分分析のデータを入力します。

提供されたデータには、運動プログラムにおけるさまざまなステークホルダーにとって重要な評価が含まれています。 賞金(勝利?)、卒業率、NCAA規則違反、ホームゲーム出席、ジェンダー平等、異なるスポーツチームの数、プログラムの財政的成功の重要性が考慮されます。 ソースはこちらです:

Wolfe, Richard A. and Daniel S. Putler (2002), "How Tight are the Ties that Bind Stakeholder Groups?, Organization Science, 13(January-February), 64-82.

入力データとしては、これらの値が設定されているようです。

主成分分析コンポーネント

主成分分析コンポーネントマクロをクリックして、設定タブを開きます。 2つ以上のデータフィールドを選択します。 必要に応じて、各フィールドを単位分散にスケールすることができます。 含める主成分分析コンポーネントの最大数を選択し、主成分分析コンポーネントをデータストリームに追加するかどうかを決定します。

主成分分析コンポーネントの設定は以下のようになっていました。「追加する主成分分析の数」が「PC1」と「PC2」にあたるものだと思われます。

閲覧ツール

左側の出力に閲覧ツールを接続すると、(2つの主成分分析コンポーネントが追加された)データストリームと右側の出力が表示され、主成分分析コンポーネントマクロによって生成されたレポート情報が表示されます。

ワークフロー実行後には、それぞれ以下のように閲覧ツールから参照できました。1つ目が後述のグラフの元データ、2つ目のほうが最終的に出力されるHTMLレポートの元データになるようですね。

グラフ作成ツール

グラフ作成ツールを使用して、データストリームに追加された主成分のプロットを作成します。

こちらもワークフロー実行後に以下のようにグラフが参照できました。こちらもHTMLレポートの元になるようです。

ユニオンツール

ユニオンツールを使用して結果を結合し、レンダーツールを使用して表示します。

これは、先程見た「閲覧ツール」の2つ目のほうのレポートの元になるデータと、「グラフ作成ツール」を結合しているということですね。この結果をもってHTMLレポートを作成しているのですね。設定は以下のようになっていました。

まとめ

以上、主成分分析ワークフローの紹介でした。残念ながら筆者に予測分析の知識が無いため、簡単な紹介となってしまいましたが、主成分分析をガリガリ行いたい方にとっては有用なツールなのではないかと思われます。

今後も私の記事はこんな感じのご紹介となることを先に謝罪しておきますが、他の方の記事にご期待ください!

明日04日目は甲木 洋介による「4.Scatterplot」(散布図)です。

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400