Plot of Means(標準誤差) | Alteryx Predictive Tools 道場 Advent Calendar #05

こんにちは、DI部プリセールスエンジニアの兼本です。

当エントリは『Alteyx Predictive Tools 道場 Advent Calendar』の05日目のエントリです。

クラスメソッド Alteryx Predictive Tools 道場 Advent Calendar 2018 - Qiita
Alteryx Predictive Tools 道場 Advent Calendar | シリーズ | DevelopersIO

前提条件

本シリーズではAlteryx2018.4を使用しています。

どんなサンプル?

さて、例によってサンプルを開くところから始めましょう。
Alteryx Designerを起動して、「ヘルプ > サンプルワークフロー > Predictive tool samples > Predictive Analytics > 5 Plot of Means」から開くことができます。
また、本ワークフローを参照するにはAlteryx Predictive Tools with Rがインストールされている必要があります。

Plot of Meansサンプルは「平均プロット」ツールを使用するサンプルワークフローです。
「平均プロット」ツールは、あるデータに対する標準誤差や標準偏差を表現するチャートを作成することができるツールです。

平均プロットツールとは?

平均プロットツールは「データ調査」カテゴリのツールです。

またツールの説明は以下の通りです。

何ができる?

入力データは以下のような感じです。 フィールドごとの説明がないのですが、データを見た限りでは、契約者ごとのクレジットカードの利用実績、契約年数、年齢、性別などの属性情報、ならびに、債務不履行の有無に関するリストになっているようです。

サンプルで「平均プロット」ツールの設定を確認したところ、応答フィールドとして「Default」を選択、グループ化するカテゴリとして「Chk_Bal」が選択されています。

「Default」は値がYesまたはNoなので、債務不履行の有無だと推測します。
また、「Chk_Bal」はデータが抽象化されているため内容から意味を汲み取ることができないのですが、フィールド名から「checks and balances」でしょうか。

このサンプルでは、これらのデータに対して、標準誤差(GUIでは「Standerd error」が「標準エラー」に訳されています・・・)をチャートとして出力しています。
実行すると以下のような出力になります。

「Chk_bal」には、A11、A12、A13、A14という4つのカテゴリがあり、A14のグループがDefaultがYesになる傾向が一番低い結果になっています。
標準誤差はA13がもっとも幅が大きいですが、これはA13のデータ件数が少なく標本数が少ないことに起因していると考えられます。
実際に「Chk_bal」のデータを閲覧ツールで確認すると、以下のようになり、A13は標本数が少ないことがわかります。

参考までに、同じフィールドを使って標準偏差を出した場合は、以下のようになります。

まとめ

いかがでしたでしょうか。
本エントリでは「平均プロット」ツールを使用して、標準誤差や標準偏差を求めるサンプル「Plot of Means」のご紹介をいたしました。
明日06日目はniinoによる「Decision Tree」の予定です。明日もお楽しみに。

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400