Alteryx Inspire 2017 : 【レポート】データクリーニングと品質の芸術と科学 #alteryx17

こんにちは、小澤です。

『Alteryx inspire 2017』が2017年6月5日(月)〜6月7日(水)、アメリカのラスベガス ARIA HOTELにて3日間開催されています。 当エントリでは、テクノロジートラックの、「The Art and (Data) Science of Data Cleansing and Quality」をレポートしたいと思います。

Alteryx Inspire 2017については下記をご参照ください

目次 

セッションの概要

セッション概要は以下の内容となります。

登壇者: Dan Putler - Chief Scientist - Alteryx

セッション概要:
By itself, predictive modeling can be difficult to implement. What's more, the growing number of data types and sources are making the data preparation process more complex. While predictive modeling can deliver substantial business gains, it can also wreak havoc if the data used for analysis is not accurate or complete. In this session, we'll help you understand how to assess the quality of your data, cleanse and prepare data for analysis, and decide the right predictive modeling techniques for your specific situation.
 (それだけでは、予測モデリングを実装するのが難しい場合があります。 さらに、データ型とソースの数が増えているため、データ準備プロセスが複雑になっています。 予測モデリングは実質的なビジネス利益をもたらす可能性がありますが、分析に使用されるデータが正確でないか完全ではない場合、混乱を招く可能性があります。 このセッションでは、データの品質を評価し、分析のためにデータを整備し、準備し、特定の状況に適した予測的なモデリング手法を決定する方法を理解するのに役立ちます。)

Tracksより引用

セッションレポート

2017-06-06 23.00.29

このセッションはalteryxの使い方やalteryxを使った分析の仕方といった内容というよりは、データ分析を行う上で考えなけらばならない課題設定やデータ管理といったことを扱う内容になっています。

アジェンダは以下のようになります

  • ビジネス上の課題を考える、適切なデータではじめる
  • 適切なモデリング手法を選択する
  • データの品質管理の重要性

ビジネス上の課題を考える、適切なデータではじめる

最初は意思決定に関する問いかけから始まります。

  • どのような意思決定が必要か?
  • そのために必要な情報はなにか?
  • どのような分析が最適な結果に繋がるのか?

続いてこれらについて、2つの例で見ていきます。

  • 明日の何時にどれだけの電力が必要となるか
  • スポーツ小売店のバッティングスポーツのカタログを送付すべき顧客の選択

電力需要の予測

必要となる電力の予測では、

  • 既存の発電所の稼働、停止の有無
  • 電力の購入が必要になるか?必要ならいくらかかるか

といったものを決定するために利用されます。

必要となる情報は1時間ごとにどのくらいの電力が要求されるのかです。 残念ながら、これは事前にはわかりません。しかし、予測モデルを立てて予測することは可能です。

どのような要素が明日の1時間あたりの電力消費量に影響するかにはいくつかの要素が考えられます。

  • 週のうちの何曜日か
  • 1日のうちの何時か
  • その時間とそれ位以前の時間の気温
  • 何月か

解決したい問題は電力需要です。 その時間の気温やその日の気温はそのタイミングにならないとわかりませんが、予測することは可能です。

  • 天気予報の情報
  • 日の出からや日没までの時間
  • 前日の同じ時間の気温

などが利用可能です。

今回のケースでは2つの予測モデルが必要です。

  • 翌日の気温の予測
  • 1時間あたりの電力需要を気温や他の要素から予測

スポーツ小売店のバッティングスポーツのカタログを送付すべき顧客の選択

次に、バッティングスポーツのカタログを送付すべき顧客をどのように決定するかの例を見ていきます。

これは、カタログ送付のコストが、カタログを見たことによって購入された利益よりも小さくする必要があります。 この問題は、何が顧客にとって特定の顧客にとって購入を決める基準になるのか、という別な問題に置き換える必要があります。 予測モデルはこの基準を満たす情報を提示するのに役立ちます。

今回の場合2種類のモデルが考えられます。

  • カタログを送付したことによって顧客が購入するかを予測
  • カタログ送付による購入の利益とコストを予測

これらのモデルの変数選択では、すでに知っている顧客の情報を利用する必要があります。 利用可能な候補としては

  • デモグラフィック情報や経済状況
  • 住んでいる地域情報
  • RMF

※ RMF:最終購入日、購入頻度、購入金額に基づいて顧客をグルーピンする分析手法

また、目的変数についても適切に観測する必要があります。 これには、2種類の方法があります。

  • 適切な履歴データを利用する(※ 他のキャンペーンや周期性の変動などの影響を排除する)
  • "テスト"を行うアプローチで全顧客の行動を予測する(※ いわゆるA/Bテストなど、コントロールグループとテストグループに分ける方法)

適切なモデリング手法を選択する

数多くのモデリング手法の中から適切ものを選択する必要があります。 2つの基準として

  • 目的変数の型(カテゴリカルか数値か)
  • 新しいデータの予測においてもっとも効果を発揮するもの

基本的なモデルの種類として

  • カテゴリ分類モデル : カタログに対して反応する/しない、など
  • 回帰モデル : 最終的な利益はいくらになるか、一時間あたりの電力需要、など

があります。

データの品質管理の重要性

データの健康管理の落とし穴として

  • 欠損値がある場合の対応
  • 不均衡データへの対応
  • カテゴリカル変数を整数値として扱わないようにする

といった点があげられています。

欠損値の対応については

  • 数値の場合は、平均, 中央値, ゼロなどを固定の値を入れておく。欠損値を保管したかをあわらすカテゴリ変数を用意しておくのもいい
  • カテゴリカル変数は欠損値であることを示す値を入れておく
  • 他の利用かのなデータから予測する
  • 欠損値のあるレコードを取り除く

といった方法があります。

セッション資料

本セッションの発表資料は以下になります。

終わりに

本セッションでは、主にデータ分析を行う上で知っておかねばならない知識についての内容となっていました。 データ分析やalteryxの利用についての具体的な話ではありませんが、ツールにかかわらずデータ分析で価値を生み出すには必須の内容と言えるかと思います。