Frequency and Contingency (頻度とコンティンジェンシー) | Alteryx Predictive Tools 道場 Advent Calendar 2018 #18

はじめに

こんにちは。DI部の大高です。

当エントリは『Alteryx Predictive Tools 道場 Advent Calendar 2018』の18日目のエントリです。

クラスメソッド Alteryx Predictive Tools 道場 Advent Calendar 2018 - Qiita
Alteryx Predictive Tools 道場 Advent Calendar | シリーズ | DevelopersIO

前提条件

Alteryxは「Alteryx Designer / Version 2018.4」を利用しています。

Frequency and Contingency (頻度とコンティンジェンシー) ワークフローとは

Alteryxを開き「ヘルプ > サンプルワークフロー > Predictive tool samples > Predictive Analytics > 18 Frequency and Contingency Macros Sample」から開くことができます。

実際に開いたワークフローがこちらです。

ワークフローの概要として記載されているとおり、このワークフローは以下のようなワークフローとなっています。

This workflow shows the use of both the Frequency and the Contingency Table macros. Both of these macros can be used to let users take a look at the different values within fields of their data and how often these values occur. The Frequency macro will look at 1 variable/field at a time and produce a table for each field selected within the macro. Whereas the Contingency table will look at multiple variables at the same time (up to 4 can be selected.) This will allow you to see if variables appear to have any dependence upon each other or are just independent.

このワークフローでは、度数分布表と分割表マクロの両方が使用されています。 これらのマクロはどちらも、ユーザーがデータフィールド内のさまざまな値とその値の発生頻度の確認に使用できます。 度数分布表マクロは一度に1つの変数/フィールドを調べ、マクロ内で選択された各フィールドのテーブルを生成します。 分割表では、複数の変数が同時に表示されます(4つまで選択できます)。これにより、変数が互いに依存しているかどうか、または独立しているかどうかを確認できます。

各種データ調査マクロは「データ調査」タブから利用することができます。

データ調査マクロ

各マクロの説明には以下のように記載されています。

度数分布表

度数分布表は、中学校でやったあの「度数分布表」のことです。「統計において標本として得たある変量の値のリスト」であり、例として「生徒の身長の度数分布表」は以下のようになります。

身長の範囲 生徒数 累積
135 - 150 cm 25 25
150 - 165 cm 35 60
165 - 180 cm 20 80
180 - 195 cm 20 100

参考)度数分布 - Wikipedia

分割表

分割表(クロス集計表)は「2つ以上の変数(名義尺度が一般的)の間の関係を記録し分析するためのもの」であり、例として「男女の利き手に関する分割表」は以下のような表になります。

右利き 左利き
男性 43 9 52
女性 44 4 48
87 13 100

参考)分割表 - Wikipedia

では、まずは実際にワークフローを実行してみましょう。

設定と実行結果

ワークフローとしては、「度数分布表」が1つと、設定が異なる「分割表」が4つ存在していますので、それぞれの設定と実行結果を見てみます。結果はすべてインタラクティブチャートの結果を表示しています。

度数分布表

度数分布表では、すべてのフィールドを選択しています。

結果のインタラクティブチャートでは、プルダウンリストからフィールドを選択して、各フィールドの度数分布を確認することができます。

分割表

1つ目

1つ目の分割表では、「カイ2乗統計を含める」、かつ、変数は「Donate」と「First_Years」に設定されています。

結果のインタラクティブチャートでは、以下のように分割表が参照できます。また、必要に応じて変数をドラッグ&ドロップで移動することで表示軸を変更することもできます。

2つ目

2つ目の分割表では、「カイ2乗統計を含める」、かつ、変数は「Donate」と「First_School」に設定されています。

3つ目

3つ目の分割表では、「カイ2乗統計を含めない」、かつ、変数は「Donate」、「Spouse」、「First_School」に設定されています。

4つ目

4つ目の分割表では、「カイ2乗統計を含めない」、かつ、変数は「Donate」、「Spouse」、「First_School」、「Intramural」に設定されており、一番バリエーションが多いパターンです。

まとめ

以上、Frequency and Contingency (頻度とコンティンジェンシー)ワークフローの紹介でした。ご紹介したように「度数分布表」や「分割表」を手軽に作成できるのはとても便利ですね!

明日19日目は甲木 洋介による「19. Market Basket Analysis」(マーケットバスケット分析)です。明日もお楽しみに!

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400