Alteryx v11.7:『予測』関連ツールの機能概要&ブログエントリまとめ #alteryx

2017.12.12

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

Alteryxのワークフローを構成する「ツール」群は、バージョンを追う毎にその種類が増えて来ています。その数251種類(2017年12月、v11.7現在)。非常に数も多く内容のバリエーションに富んでいる為、全容把握はなかなかに大変です。そこで当エントリでは、その中から「予測」に関する処理を行うツール群について処理の概要や関連ドキュメント・また関連しているDevelopers.IOのエントリに関する情報についてまとめてみました。

目次

当エントリではデータ加工、ETLにおける処理として、公式ドキュメントで紹介されている「Predictive(予測)」「Predictive Grouping(予測グループ)」について内容を紹介しています。

Predictive(予測)

分類モデルと回帰モデルの両方の一般的な予測モデル用ツール、モデル比較ツール、予測モデリングに関連する仮説テストツールが含まれています。

アイコン ツール名 用途・用例
Boosted Model (ブーストモデル) Gradient Boostingメソッドに基づいて一般化されたブースト回帰モデルを作成。
Count Regression (カウント回帰) 非負の整数値(0,1,2,3など)の対象フィールド(対象変数)を、その対象に影響を与えると予想される1つ以上のフィールドに関連付ける回帰モデルを作成。
Cross-Validation (交差検証) クロスバリデーションのプロセスを使用して、1つまたは複数のAlteryxで生成された予測モデルのパフォーマンスを比較。
DataRobot Automodel (DataRobotの自動化) DataRobot Automodelツールを使用して、予測モデルを作成するDataRobotマシン学習プラットフォームにデータをアップロード。 DataRobotは、DataRobot Predict Toolを使用してAlteryxで適用できる予測モデルを作成して保存します。
DataRobot Predict (DataRobotによる予測) DataRobot Predictツールを使用して、DataRobotで生成された予測モデルを使用してデータにスコアを付与。(※予測モデルを生成するには、DataRobot Automodel Toolを使用します。)
Decision Tree (決定木) デシジョンツリーの学習方法に基づいてモデル作成基準を最適化するためのif-then分割ルールのセットを作成。
Forest Model (フォレストモデル) 1つまたは複数の予測変数に基づいてターゲット変数を予測する一連の決定木モデルを構築するモデルを作成。
Gamma Regression (ガンマ回帰) ターゲット変数に影響を及ぼすと予想される1つまたは複数の変数(予測変数)に、ガンマ分布の厳密に正の関心対象変数(ターゲット変数)を関連付ける。
Lift Chart (リフトチャート) 異なるバイナリ(はい/いいえ)分類モデルの比較精度を視覚的に評価して新しいデータを予測し、新しいデータを予測するために使用される累積キャプチャされたレスポンスチャートとインクリメンタルレスポンス率グラフを生成。
Linear Regression (線形回帰) 1つまたは複数の予測変数に基づいてターゲット変数を予測するモデルを作成する線形関数を構築。
Logistic Regression (ロジスティック回帰) ターゲットバイナリ変数(yes / no、pass / failなど)を1つ以上のプレディクタ変数に関連付けるモデルを作成し、ターゲット変数に対する2つの可能な応答の推定確率を取得。
Model Coefficients (モデル係数) モデルの係数名と値の表を作成。
Model Comparison (モデル比較) 検証(またはテスト)データセットの使用に基づいて、1つまたは複数の異なる予測モデルのパフォーマンスを比較。
Naive Bayes Classifier (単純ベイズ分類器) 予測変数のセットとカテゴリの目標変数の間の関係の二項または多項確率的分類モデルを作成。
Nested Test (ネストされたテスト) 一方が他方に含まれる変数のサブセットを含む2つのモデルが、その予測能力に関して統計的に等価であるかどうかを調査。
Network Analysis (ネットワーク分析) ネットワークの対話型ダッシュボードを生成し、さまざまなノード間の関係を探索。
Neural Network (ニューラルネットワーク) 単一の隠れ層を持つフィードフォワードパーセプトロンニューラルネットワークモデルを作成。
Score (スコア) モデルの予測の品質を決定。モデルを評価し、モデルによって予測された値の精度を推定するスコアと呼ばれる評価列を作成します。
Spline Model (スプラインモデル) Friedmanの多変量適応回帰スプライン(またはMARS)アルゴリズムを提供。
Stepwise (ステップワイズ) 線形、ロジスティック、およびその他の従来の回帰モデルのより大きな可能性のあるプレディクタ変数からモデルに含める最良の予測変数を決定。
Support Vector Machine (サポートベクターマシン) 分類(カテゴリカルターゲット)の問題のために開発された初心者学習アルゴリズムの一般的なセットの機能を提供。
Survival Analysis (サバイバル分析) サバイバル分析の一般的な方法を実装。
Survival Score (サバイバルスコア) Survival Analysisツールを使用して推定することができるCox比例ハザードモデルに基づいて、推定相対リスクと制限平均生存時間の両方を提供。
Test of Means 対照群と1つ以上の治療群との間の数値応答場の平均値の差のWelchの2つの試料t検定*を実行。
Variance Inflation Factors (分散インフレ因子) モデルインターセプト(常にVIFまたはGVIFが1に等しい)以外のすべての変数の分散インフレ率またはVIF(GVIF)の一般化バージョンを含む係数要約レポートを生成。

Predictive Group(予測グループ)

このカテゴリには、レコードまたはフィールドを少数のグループにグループ化するためのツールが含まれています。

アイコン ツール名 用途・用例
Append Cluster (クラスタの追加) K-Centroids Cluster Analysisツールからのクラスタ割り当てをデータストリームに追加。
Find Nearest Neighbors (最近傍探索) ユークリッド距離に基づいて、「クエリ」ストリーム内の各レコードに対応する「データ」ストリーム内の選択された数の最近傍を検出。
K-Centroids Cluster Analysis (K-Centroidsクラスター分析) パーティショニングクラスタ分析と呼ばれる処理を行うアルゴリズムのクラスを提供。
K-Centroids Diagnostics (K-Centroids診断) データと選択されたクラスタリングアルゴリズム(K-Means、K-Medians、またはNeural Gas)を指定して、適切なクラスタ数を指定。
MB Affinity 「トランザクション」データを取り、各行がトランザクションであり、列がトランザクションに現れる「アイテム」のセットであるマトリックスを構成。
MB Inspect MBルールツールのルールまたは項目セット出力を入力として受け取り、数または返されたルールまたは項目セットを管理可能な数に減らすために、いくつかの基準でフィルタリングできるルールのリストおよび分析を提供。
MB Rules トランザクションデータを取り込み、データを変換した後、関連ルールセット*または頻出アイテムセットのいずれかを作成。
Multidimensional Scaling (多次元スケーリング) 分散に基づいて単変量データを分離する方法を提供。
Principal Components (主要コンポーネント) データベース内のディメンション(数値フィールドの数)を、元のフィールドセットをデータの分散(すなわち、情報)の大部分を占める小さなセットに変換することによって減らす。

まとめ

という訳で、Alteryxツール 機能概要&関連ブログエントリまとめ『予測編』のツール群の内容ご紹介でした。当エントリで紹介した内容の他にも以下エントリでテーマ・トピック毎にツール群の紹介をまとめていますので併せてご参照頂けますと幸いです。

参考情報:

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。 14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400