Alteryx Inspire 2017 : 【レポート】調査データの使いこなし #alteryx17

alteryx-inspire2017-logo

こんにちは、小澤です。

『Alteryx inspire 2017』が2017年6月5日(月)〜6月7日(水)、アメリカのラスベガス ARIA HOTELにて3日間開催されています。 当エントリでは、データアナリシストラックの、「Universal Orlando Wrangles Survey Data with Alteryx」をレポートしたいと思います。

Alteryx Inspire 2017については下記をご参照ください

目次 

セッションの概要

セッション概要は以下の内容となります。

登壇者: Andrew Kim - Data Analyst / Programmer - Universal

セッション概要:
In this session join Universal, one of the nation's leaders in theme parks, to learn how to wrangle survey data using Alteryx. Data Analyst, Andrew Kim, will share how to make survey data FUN again by explaining how to import and process survey data dynamically. Learn how to create a macro to wrap around your survey platforms API, why storing survey numerical and textual information is important and how to rejoin responses back together dynamically. You'll leave this session feeling you have recaptured the most important thing as an Analyst the opportunity to be creative.
 (このセッションでは、テーマパーク業界のリーダーの一人であるユニバーサルに参加して、Alteryxを使って調査データを扱う方法を学びます。 データアナリスト、Andrew Kim氏は、調査データを動的にインポートおよび処理する方法を説明することで、調査データのFUNを再作成する方法を共有します。 アンケートのプラットフォームAPIをラップするマクロを作成する方法、アンケートの数値とテキストの情報を保存することが重要な理由、および応答を動的に再結合する方法について学びます。 このセッションでは、分析者として最も重要なことを取り戻したと感じています。)

Tracksより引用

セッションレポート

2017-06-06 22.00.57

「Wrangling Survey Data」と言われても、日本ではあまり馴染みのなく、タイトルを見ても、翻訳サイトをつかっても「?」となるかもしれません。 データラングリング(Data Wrangling)は、簡単にいうと「分析のためにデータを使いこなす」といった感じの意味合いになります。 詳細は、下記書籍などが参考になります(サイト上の「内容」に記載されているものだけでもデータラングリングって何よ?はある程度わかるかと思います)。

今回はSurvey Dataなので調査データ、すなわちアンケートなどで得られたようなデータをどのように使いこなしていくかといった内容になっています。

調査データについて

まず最初は調査データがどれくらいあるかといった話から始まります。

2017-06-06 22.01.45

毎年100万の回答、1億の質問項目が生み出され、数十億のデータと結びつけられます。

こういった調査データを取得するようなプラットフォームには以下のようなものがあります。

2017-06-06 22.03.09

SurveyMonkeyなど日本でも利用されているものもありますが、あまり聞き覚えの無いサービスもありますね。 私もいくつかはセッション終了後にどんなものなのか調べてみたサービスもあります。

調査データの取得

続いて調査データを取得していきます。

2017-06-06 22.06.08

左側は利用するデータの流れで、最初は単一項目から徐々に複数項目やそれらの組み合わせなどに拡張して行っています。 その右側には、取得するためにやる必要があることや気をつけなければならないことが記載されています。

次にデータ変換の処理となりますが、まずはとても辛い例となっています。

2017-06-06 22.06.31

Excelを使っていますね。 続いては、とても簡単な方法でやる例です。

2017-06-06 22.07.21

こちらは、Alteryxを利用しています。 TransposeツールやCross Tabツールを利用することで、集計が楽に行えます。

調査データの活用

続いて、データを活用していきます。

2017-06-06 22.13.26

まずは、メタデータや欠損値濃霧などデータの性質を確認していきます。 つぎに、変換の方法を決めていきます。 最後に、セグメンテーションなど、データの絞り込みを行っていきます。

続いて、データの変換、他の情報との結合やデータベースへの挿入といった処理の例を示しています。

2017-06-06 22.17.09

2017-06-06 22.17.27

最後に、Dnynamic系のツールを利用することで、他のデータと結合しながら利用するような場合にうまく活用できますよ、ということです。

2017-06-06 22.18.28

セッション資料

本セッションの発表資料と動画は以下になります。

終わりに

本セッションでは、調査データをどのように扱うかについて解説されていました。

データ分析というと高度な手法などに注目されがちではありますが、何よりもしっかりとデータの性質を見極め、使いこなしていくことが大事だということをわかる内容となっていました。 いくつか具体例をあげているものの、これらのデータの扱いやAlteryxについての知識がないとややイメージしづらいものになっていたかもしれませんが、今後意識してみる点がどこになるかというのを確認するのにも役立つ内容だったかと思います。

AWS Cloud Roadshow 2017 福岡