Alteryx v11.7:『分析』関連ツールの機能概要&ブログエントリまとめ #alteryx

2017.12.12

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

Alteryxのワークフローを構成する「ツール」群は、バージョンを追う毎にその種類が増えて来ています。その数251種類(2017年12月、v11.7現在)。非常に数も多く内容のバリエーションに富んでいる為、全容把握はなかなかに大変です。そこで当エントリでは、その中から「分析」に関する処理を行うツール群について処理の概要や関連ドキュメント・また関連しているDevelopers.IOのエントリに関する情報についてまとめてみました。

目次

当エントリではデータ加工、ETLにおける処理として、公式ドキュメントで紹介されている「Demographic Analysis(人口統計分析)」「Behavior Analysis(行動分析)」「Time Series(時系列分析)」「Prescriptive(処方的分析)」「Data Investigation(データ調査)」について内容を紹介しています。

Demographic Analysis(人口統計分析)

以下のツールはAlteryx内のAllocate Engineを使用してデータを抽出する機能を提供します。これらのツールを使用するには、インストール済みAllocateデータセットのライセンスが必要です。

アイコン ツール名 用途・用例
Allocate Append (人口統計フィールドを追加) 既存のAllocateインストールからの人口統計フィールドを追加。
Allocate Input (データセットから地理情報とデータ変数を選択) ユーザーのシステムにインストールされているAllocateデータセットから地理情報とデータ変数を選択。
Allocate Metainfo (データセットの情報を取得) インストールされているAllocate Datasetに関する適切な情報を返す。
Allocate Report Tool (カスタムレポートの作成) Allocateに関連付けられたプリフォーマット済みまたはカスタムレポートを取得して実行。

Behavior Analysis(行動分析)

以下のツールはAlteryx内のSolocast Engineを利用してデータを抽出する機能を提供します。このカテゴリに記載されているツールに加えて、ユーザーは、集計ツールとブラウズデータツールを使用して、行動分析ツールから生成された情報を活用できます。

アイコン ツール名 用途・用例
Behavior Metainfo (行動分析データセットの情報を取得) インストールされているBehavior Analysisデータセットに関する関連情報を返す。
Cluster Code (ストリームにクラスタコードフィールドを追加) クラスタレベルID(ブロックグループキーなど)を使用して、レコードのストリームにクラスタコードフィールドを追加。
Compare Behavior (行動を比較) 2つのプロファイルセットを分析し、一方を他方と比較。
Create Profile (行動プロファイルの作成) 受信データストリームを取得し、その内容から行動プロファイルを構築。
Detail Fields (詳細フィールド情報の取得) プロファイルに固有のクラスタレベルまたはグループレベルの詳細なフィールド情報を返す。
Profile Input (プロファイルの入力) ワークフローの入力として使用するプロファイルセットと呼ばれる特定のタイプのデータセットを選択。
Profile Output (プロファイルの出力) プロファイルまたはプロファイルのコレクションを含む受信データストリームを取り、プロファイルセット* .scdファイルを書き出す。
Profile Rank Report (ランクレポートの作成) 2つのプロファイル入力(地理および製品プロファイル)を受け取り、ランクレポートを生成。
Profile Comparison Report (プロファイル比較レポート) 2つのプロファイル入力を受け取り、比較レポートを生成。
Profile Detail Report (プロファイル詳細レポート) 入力プロファイル入力を受け取り、そのプロファイル内のクラスタタイプの存在を調べるレポートを生成。

Time Series(時系列分析)

以下のツールには、定期的な(データの時間間隔(月次など))、単変量時系列のプロット、予測ツールが含まれています。

アイコン ツール名 用途・用例
ARIMA (標準的な時系列解析手法) 標準的な時系列解析手法であるARIMAモデルを使用して、単変量モデルまたは共変量(予測変数)モデルのいずれかの時系列予測モデルを推定。
ETS (指数平滑法) 指数平滑法を用いて単変量時系列予測モデルを推定。
TS Compare (時系列比較) 共変量を使用するARIMAモデルを含む、ETSまたはARIMAマクロで作成された1つ以上の時系列モデルを比較。
TS Covariate Forecast (時系列共変量予測) ユーザーが指定した将来の期間について共変量を使用して推定されたARIMAモデルからの予測を提供。
TS Filler (時系列フィラー) 時系列データのデータストリームを取り、シリーズ内のギャップを埋める。
TS Forecast (時系列予測) ARIMAまたはETSモデルのいずれかからユーザーが指定した将来の期間の予測を提供。
TS Forecast Factory (時系列予測ファクトリ) ARIMAまたはETSモデルのグループから、ユーザーが指定した将来の期間の予測を提供。
TS Model Factory (時系列モデルファクトリ) 自己回帰移動平均法(ARIMA)または指数平滑法(ETS)を使用して、複数のグループの時系列予測モデルを一度に推定。
TS Plot (時系列プロット) 時系列データをより良く理解し、予測モデルの開発を進める方法を決定する際に有用な、さまざまな単変量時系列プロットを提供。

Prescriptive(処方的分析)

このカテゴリには、特定の状況または一連のシナリオに対する最善の行動や成果の決定を支援するツールが含まれます。

アイコン ツール名 用途・用例
Optimization (最適化) 行列、手動、およびファイル入力モードを使用して、線形計画法(LP)、混合整数線形計画法(MILP)、および二次計画法(QP)最適化問題を解決。
Simulation Sampling (シミュレーションサンプリング) 分布から、入力データから、または分布に最も適した組み合わせとして、パラメトリックにデータをサンプリング。分布のパラメータが不明で、データが不足している場合は、データを「描画」することも可能。
Simulation Scoring (シミュレーションスコアリング) モデルオブジェクトの誤差分布の近似からサンプルを取得。
Simulation Summary (シミュレーションサマリ) シミュレートされたディストリビューションとそのディストリビューションの操作による結果を視覚化。入力変数と出力変数の視覚的および定量的分析を取得します。

Data Investigation(データ調査)

Data Investigation(データ調査)ツールには、予測分析プロジェクトで使用されるデータをよりよく理解するためのツールと、予測分析のための特殊なデータサンプリングタスクを実行するためのツールが含まれています。

アイコン ツール名 用途・用例
Association Analysis (相関分析) データベース内のどのフィールドが相互に2変量の関連を持つかを判断。
Basic Data Profile (基本データプロファイル) データを分析し、データの各列(フィールド)にメタデータを提供。
Contingency Table (分割表) 各フィールドを個別に見るのではなく、最大4つの変数/フィールドと、それらがどのように関連しているかを調査。
Distribution Analysis (分布分析) 1つまたは複数のディストリビューションを入力データに合わせて、いくつかのGoodness-of-Fit *統計に基づいて比較。
Field Summary (フィールドサマリー) データを分析し、選択した列のデータの記述統計を含むサマリーレポートを作成。データを把握し、データ管理に関する推奨事項を受け取ることが出来ます。
Frequency Table (度数分布表) ユーザによって選択された各フィールドについて度数分布表を作成。
Heat Plot ヒートプロットカラーマップを使用して、連続数値変数または順序カテゴリ(所得グループや教育達成レベルなどの自然順序を持つカテゴリ変数)の2つの変数の共同分布を表示。
Histogram (ヒストグラム) 一連の連続値範囲に入るレコードの頻度を示すことによって、単一数値フィールドの経験的累積分布のヒストグラムを提供。
Importance Weights (重要度ウェイト) 作成されるモデルのターゲット変数に対する可能性のある各予測子の強さに基づいて、予測モデルで使用する一連の変数を選択する方法を提供。
Pearson Correlation (ピアソン相関) Pearson積率相関係数を使用して、2つの変数XとYの間の相関(線形依存)を測定し、+1と-1の間の値を与える。
Plot of Means 数値フィールドまたはバイナリカテゴリフィールドを応答フィールドとしてカテゴリフィールドとともに使用し、カテゴリフィールドの各カテゴリのレスポンスフィールドの平均をプロット。
Scatterplot (散布図) マージンにボックスプロットを含むオプション、線形回帰直線、ノンパラメトリック回帰による滑らかな曲線、平滑化された条件付きスプレッド、アウトライア識別、および回帰直線を備えた拡張型散布図を作成。
Spearman Correlation (スピアマン相関) 任意の単調関数が、2つの変数間の関係を特定することができるかどうかを評価。
Violin Plot (バイオリンプロット) 単一の数値変数の分布を示し、数値フィールドの値の密度(ビット幅)を示すカーネルスムーザーに基づいて分布の密度を生成。

まとめ

という訳で、Alteryxツール 機能概要&関連ブログエントリまとめ『分析編』のツール群の内容ご紹介でした。当エントリで紹介した内容の他にも以下エントリでテーマ・トピック毎にツール群の紹介をまとめていますので併せてご参照頂けますと幸いです。

参考情報: