Time Series Forecasting Sample (時系列予測) | Alteryx Predictive Tools 道場 Advent Calendar 2018 #15

2018.12.15

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

こんにちは。DI部の大高です。

当エントリは『Alteryx Predictive Tools 道場 Advent Calendar 2018』の15日目のエントリです。

クラスメソッド Alteryx Predictive Tools 道場 Advent Calendar 2018 - Qiita

Alteryx Predictive Tools 道場 Advent Calendar | シリーズ | DevelopersIO

前提条件

Alteryxは「Alteryx Designer / Version 2018.4」を利用しています。

Time Series Forecasting Sample (時系列予測) ワークフローとは

Alteryxを開き「ヘルプ > サンプルワークフロー > Predictive tool samples > Predictive Analytics > 15 Time Series Forecasting Sample」から開くことができます。

実際に開いたワークフローがこちらです。

ワークフローの概要として記載されているとおり、このワークフローは以下のようなワークフローとなっています。

This workflow illustrates how to use several of the univariate times series tools to build, verify, and make forecasts of the field of interest. The data used in the sample are for total monthly overnight room bookings at a mountain resort and is part of a process of developing a forecasting model for those bookings for the following 12 months. This is the same data used in the TS Plot Sample, and elements of the analysis contained in that sample are used to inform the creation of this models in this sample. One thing that came out of the earlier analysis was that after a long period of growth trend, the trend is now flattening or slightly declining. This represents a "turn" in the time series, which can be a challenge for time series models.

このワークフローでは、単変量時系列の複数のツールを使用して、対象フィールドの構築、検証、予測を行う方法を示します。 このサンプルで使用されているデータは、山岳地帯での毎月の一晩の宿泊予約に関するもので、今後12ヶ月間の予約の予測モデルを作成するプロセスの一部です。 これはTS Plot Sampleで使用されているのと同じデータであり、このサンプルに含まれている分析の要素は、このサンプルでこのモデルの作成に情報を与えるために使用されます。 以前の分析から分かることの1つとして、長期的な成長傾向の後に、現在の傾向が平坦化しているか、わずかに低下している点があります。 これは時系列の「回転」を表し、時系列モデルの課題となります。

なお「TS Plot Sample(時系列分析)」ワークフローについては、当アドベントカレンダーの14日目でもご紹介していますので、併せてご参照ください。

各種の時系列用ツールは「時系列」タブから利用することができます。

時系列ツール群

各コンポーネントの説明には以下のように記載されています。なお、以下のブログを参考にさせて頂きました。

六本木で働くデータサイエンティストのブログ

ETSツール

ちなみに、ETSとは以下のサイトによるとError, Treand, Seasonalityの頭文字のようです。

Exponential smoothing (ETS, which stands for Error, Trend, and Seasonality) is a family of very successful forecasting methods which are based on the key property that forecasts are weighted combinations of past observations (Hyndman et. al, 2008).

Exponential Smoothing and Innovation State Space Model (ISSM) — The Straight Dope 0.1 documentation

モデルの概要としては以下のようなモデルだそうです。

・より直近の過去値からの影響を重視し、過去になればなるほど指数関数的に影響が小さくなるモデル ・普通の加法型誤差項だけでなく乗法型誤差項も可能なモデル ・以上の制約のもとで状態空間モデルにまとめたもので、モデル推定は観測値ではなく状態値に基づく

参考)単変量時系列分析の続き:ARIMA vs. ETS vs. Robust ETS - 六本木で働くデータサイエンティストのブログ

ARIMAツール

ARIMAはAutoregressive, Integrated and Moving Average(自己回帰和分移動平均)であり、以下を示しているそうです。

d階差分をとった系列が定常かつ反転可能なARMA(p,q)過程に従う過程は次数(p,d,q)の自己回帰和分移動平均過程もしくはARIMA(p,d,q)と呼ばれる。

参考)Rで計量時系列分析:AR, MA, ARMA, ARIMAモデル, 予測 - 六本木で働くデータサイエンティストのブログ

TS比較ツール

Alteryxのヘルプでは、以下のように説明されています。

各モデルのポイント予測とホールドアウトデータセットの予測される現場の実際の値を比較する点で、モデルの精度に関するよく使用されるいくつかの尺度を提供します。 さらに、実際の値と予測値のプロットとテーブルの両方が提供されます。 マクロへの入力は、同じフィールドと同じ推定データセットと、ホールドアウト期間の実際の値を含むAlteryxデータストリームに基づいた1つ以上の時系列モデル(一緒に結合されている)であり、 モデルの作成に使用された共変量の値。 実際の値は、モデルの作成に使用された期間の直後の期間である必要があります。

TS Compare Tool

TS予測ツール

TS予測ツールは、ARIMAツールまたはETSツールを使用して作成されたモデルから、ユーザーが指定した将来の期間数の予測を提供します。 さらに、2つの異なる(ユーザーが指定した)パーセンテージ信頼水準に対して、上部および下部の信頼区間境界が設けられています。 各信頼レベルについて、真の値が提供された範囲内に収まると予想される確率は、信頼レベルのパーセンテージに対応します。

TS Forecast Tool

では、まずは実際にワークフローを実行してみましょう。

設定と実行結果

ワークフローから見て取れるように、結果としてはETSとARIMAの比較をしているTS比較の結果と、ETSを利用したTS予測の結果をみるのがよさそうです。

TS比較の元となっているETSとARIMAの設定と、その比較結果は以下のとおりです。ARIMAのほうがETSよりも宿泊予約が多いとしていますね。いずれにしても、実際の予約数よりやや高めの値が出ているようです。

ETS

ARIMA

TS比較

次に、TS予測の元となっているETSの設定とTS予測の結果は以下のとおりです。こちらはETSの結果を用いて、更に将来の予約数まで予測していますね。上記の結果より、やや控えめな予約数が予測されているようです。

ETS

TS予測

まとめ

以上、Time Series Forecasting Sample (時系列予測)ワークフローの紹介でした。ETSやARIMAは実際はそれぞれ難しそうなモデルですが、Alteryxでツールとして利用することだけを考えるとTS予測ツールと組み合わせることで、割と簡単に将来の値の予測ができるように感じました!

明日16日目は兼本侑始による「16.K-Centroids Cluster Analysis」(Kセントロイド)です。明日もお楽しみに!

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400