Frequency and Contingency (頻度とコンティンジェンシー) | Alteryx Predictive Tools 道場 Advent Calendar 2018 #18
はじめに
こんにちは。DI部の大高です。
当エントリは『Alteryx Predictive Tools 道場 Advent Calendar 2018』の18日目のエントリです。
クラスメソッド Alteryx Predictive Tools 道場 Advent Calendar 2018 - Qiita
Alteryx Predictive Tools 道場 Advent Calendar | シリーズ | DevelopersIO
前提条件
Alteryxは「Alteryx Designer / Version 2018.4」を利用しています。
Frequency and Contingency (頻度とコンティンジェンシー) ワークフローとは
Alteryxを開き「ヘルプ > サンプルワークフロー > Predictive tool samples > Predictive Analytics > 18 Frequency and Contingency Macros Sample」から開くことができます。
実際に開いたワークフローがこちらです。
ワークフローの概要として記載されているとおり、このワークフローは以下のようなワークフローとなっています。
This workflow shows the use of both the Frequency and the Contingency Table macros. Both of these macros can be used to let users take a look at the different values within fields of their data and how often these values occur. The Frequency macro will look at 1 variable/field at a time and produce a table for each field selected within the macro. Whereas the Contingency table will look at multiple variables at the same time (up to 4 can be selected.) This will allow you to see if variables appear to have any dependence upon each other or are just independent.
このワークフローでは、度数分布表と分割表マクロの両方が使用されています。 これらのマクロはどちらも、ユーザーがデータフィールド内のさまざまな値とその値の発生頻度の確認に使用できます。 度数分布表マクロは一度に1つの変数/フィールドを調べ、マクロ内で選択された各フィールドのテーブルを生成します。 分割表では、複数の変数が同時に表示されます(4つまで選択できます)。これにより、変数が互いに依存しているかどうか、または独立しているかどうかを確認できます。
各種データ調査マクロは「データ調査」タブから利用することができます。
データ調査マクロ
各マクロの説明には以下のように記載されています。
度数分布表
度数分布表は、中学校でやったあの「度数分布表」のことです。「統計において標本として得たある変量の値のリスト」であり、例として「生徒の身長の度数分布表」は以下のようになります。
身長の範囲 | 生徒数 | 累積 |
---|---|---|
135 - 150 cm | 25 | 25 |
150 - 165 cm | 35 | 60 |
165 - 180 cm | 20 | 80 |
180 - 195 cm | 20 | 100 |
分割表
分割表(クロス集計表)は「2つ以上の変数(名義尺度が一般的)の間の関係を記録し分析するためのもの」であり、例として「男女の利き手に関する分割表」は以下のような表になります。
右利き | 左利き | 計 | |
---|---|---|---|
男性 | 43 | 9 | 52 |
女性 | 44 | 4 | 48 |
計 | 87 | 13 | 100 |
では、まずは実際にワークフローを実行してみましょう。
設定と実行結果
ワークフローとしては、「度数分布表」が1つと、設定が異なる「分割表」が4つ存在していますので、それぞれの設定と実行結果を見てみます。結果はすべてインタラクティブチャートの結果を表示しています。
度数分布表
度数分布表では、すべてのフィールドを選択しています。
結果のインタラクティブチャートでは、プルダウンリストからフィールドを選択して、各フィールドの度数分布を確認することができます。
分割表
1つ目
1つ目の分割表では、「カイ2乗統計を含める」、かつ、変数は「Donate」と「First_Years」に設定されています。
結果のインタラクティブチャートでは、以下のように分割表が参照できます。また、必要に応じて変数をドラッグ&ドロップで移動することで表示軸を変更することもできます。
2つ目
2つ目の分割表では、「カイ2乗統計を含める」、かつ、変数は「Donate」と「First_School」に設定されています。
3つ目
3つ目の分割表では、「カイ2乗統計を含めない」、かつ、変数は「Donate」、「Spouse」、「First_School」に設定されています。
4つ目
4つ目の分割表では、「カイ2乗統計を含めない」、かつ、変数は「Donate」、「Spouse」、「First_School」、「Intramural」に設定されており、一番バリエーションが多いパターンです。
まとめ
以上、Frequency and Contingency (頻度とコンティンジェンシー)ワークフローの紹介でした。ご紹介したように「度数分布表」や「分割表」を手軽に作成できるのはとても便利ですね!
明日19日目は甲木 洋介による「19. Market Basket Analysis」(マーケットバスケット分析)です。明日もお楽しみに!
Alteryxの導入なら、クラスメソッドにおまかせください
日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。