Alteryx Inspire 2017 : 【レポート】予測分析入門 #alteryx17

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、小澤です。

『Alteryx inspire 2017』が2017年6月5日(月)〜6月7日(水)、アメリカのラスベガス ARIA HOTELにて3日間開催されています。 当エントリでは、プロダクトトレーニングの、「Introduction to Predictive Analytics」をレポートしたいと思います。

目次

 

セッションの概要

セッション概要は以下の内容となります。

トレーニングパス:
 Advanced Analytics(高度な分析)
講師:
 Anthony Johnson
セッション概要:
 Looking for your first foray into advanced analytics? In this class we will overview the lifecycle of predictive analysis, steps to sanitizing your data, creating your first predictive workflow, and overview other tool categories like predictive grouping and time series.
 (アドバンスドアナリティクスへの最初の進出をお探しですか?このクラスでは、Alteryxを使った予測分析のを行うための『予測分析のライフサイクル』『データのサニタイズの手順』『最初の予測ワークフローの作成』『予測グループ化や時系列』などの他のツールカテゴリの概要を解説します。)

Tracksより引用

 

セッションレポート

2017-06-05 14.59.43

本セッションはプロダクトトレーニングのため、予測分析のために利用可能な手段やツールの解説を実際にワークフローを作成しながら行うものになっています。

構成としては、事前に配布されたトレーニング用ワークフローを利用して、以下のような構成で順に予測分析のためのワークフロー作成の方法を解説していくものになっています。

  • Data Investigation(データの調査)
  • Data Preparation(データの前処理)
  • Model Building(統計/機械学習の予測モデル構築)
  • Forecasting(時系列データ解析)
  • Clustering(クラスタリング)
  • Analyzing Results(分析結果の解釈)

これら、4つのケーススタディを通して学んでいく内容となっています。 実際のセッションでは、ワークフロー構築方法の内容に基づくディスカッションが非常に活発で、時間が押してしまいForecastingまでの内容となりました。

一連のトレーニングの流れとして、最初に予測分析プロセスの全体像を解説されました。 その後は個々のケーススタディで利用するツールの解説と実際のワークフロー構築を繰り返していくといった内容になっていました。

 

データの予測分析プロセス全般の解説

このセクションの最初に解説されたこととして、 CRISP-DS(CRoss Industry Standard Process for Data Mining)と呼ばれる体系化されたデータ分析手法に基づいて、順にそのプロセスを追いながらAlteryxでそれを実現するためのワークフロー構築の方法を解説していくものとなります。

2017-06-05 15.42.28

データの予測分析のために行う一連のタスクの最初に位置づけられるのが、データの調査です。 実際のデータ分析では、このデータ調査と次の前処理がプロセス全体の80%を占めると言われることがここでも解説されました。

 

データの準備・前処理

Alteryxデータの調査のプロセスでは、以下のようなツールを利用してデータ全体の傾向をつかみます。

  • Field Summary
  • Frequency Table
  • Scatterplot
  • Plot of Means
  • Assocition Analysis

といったツールを利用して、データの概要をつかみます。 データの傾向の他、欠損値・外れ値の有無結果をもとにして、どのような前処理が必要かをつかんだ後、それを行うまでがケーススタディ1の内容となっています。

 

予測分析ツールの利用

次にPredictive系のツールに所属する、予測分析系ツールの使い方をLininer Regression, Stepwise, Scoreなどを実際に利用してデータから予測モデルを作ってみるところまで行います。

また、それに付随して、学習データ・テストデータに分割するためのCreate Samplesツールの解説や、 作成されたモデルからScoreツールで予測した結果を統計や機械学習での評価指標に落とし込むためのワークフロー構築方法も含まれます。

 

モデルの評価・比較

続いてのケーススタディでは、以下のツールを利用したいくつかのモデル構築、評価の手順の解説となります。

  • Logistic Regression
  • Stepwise
  • Decision Tree
  • Random Forest

これらのモデリングにたいする統計的・機械学習的な解説自体はありませんでしたが

  • これらがどのように機能するか
  • 作詞したモデル同士を比較して優劣を決定する
  • 決定したモデルを利用してテストデータでの評価を行う

といった流れの解説となっておりました。

また、データが不均衡の際に有効なOversample Fieldツールの使い方も解説されました。

 

時系列データ分析

本セッションの最後は時系列データの分析となります(予定上はここで最後ではありませんが、タイムアップとなりました。

まずはじめに、

  • データの日時を情報取得して認識させる
  • 欠損値確認と補完、重要性の解説

となりました。

最後にARIMA, ETLを利用して

  • 時系列データ分析でのモデル比較
  • 作成したモデルを利用しての予測分析

を行うワークフローを作成して、このセッションは終了となりました。

 

終わりに

本セッションはプロダクショントレーニングの1つで、予測分析系のツールを利用したモデリングの方法を体験するものとなっていました。 個々のツールの利用方法のみ止まるようなことはなく、CRISP-DMに基づいて一連のデータ分析の流れをどのように実現していくかといった内容になっています。

利用しているデータは今回のトレーニング用に作成されたものではあるものの、非常に実践的なトレーニングになっていました。