[レポート]トレーニングセッション「構文解析の基本」- Alteyrx Inspire 2018 #alteryx18
現地時間2018年06月04日〜2018年06月07日に米国アナハイムで開催されたAlteryxの年次カンファレンスイベント「Inspire 2018」。今回クラスメソッドからは計4人のメンバーが現地参加しました。
当エントリではイベント初日に行われたトレーニングセッション「構文解析の基本」について、その内容をレポートしたいと思います。
目次
セッション概要
当トレーニングセッションの概要は以下の通りです。
Parsing Fundamentals(構文解析の基本)
トレーニング講師:
Chris Sanders
トレーニング概要:
Many of us have lost count of how many times we have received data in the form of a giant singular string. Learn some of the most popular methods of turning the nonsensical into beautifully columnized datasets.
(私たちの多くは、唯一の巨大な文字列の形でデータを受け取った回数を失っています。 無意味なものを美しくコラム化したデータセットに変換する最も一般的な方法のいくつかを学んでください。)
セッションレポート
ハンズオンセッションの主な内容をレポートします。
データ解析とは
- "汚れた"データを綺麗にする
- データを分割
- データを適切なフォーマットに整形
- 秩序ある方法で何かを分析する
- 分析に使用できるように一連のデータを操作する
パースが必要なデータ
- 任意のソースから得る事が出来るもので、一般的には文字列データ型が多い
- 構造化データ
- 一般的にはデータベースのテーブルなど
- スプレッドシート等から抽出した表形式のデータなどもここに該当
- 注意:構造化=「分析に適している」という訳では無い。
- 半構造化データ
- ログファイル
- HTMLデータ
- XMLとJSON
- 非構造化データ
- 自由形式の書類(契約書、手紙、チャットログなど)
データセットに対するアプローチ
- データ解析を行うための一般的なアプローチ
- あなたのデータを調べる
- 一貫したパターンを検索する
- そのパターンでもっとも簡単に機能するツールを選ぶ
- 即ち「データ解析を行うための、あらゆるデータに対する『王道』や『アンチパターン』は無い!」ということ。
- Alteryxでデータ解析を行うための一般的なアプローチ
- Inputツール
- Text To Columnツール
- 日付関連のツール(DateTimeツールやFormulaツール)
- データを"縦持ち(Verticalize)"にさせるツール
- 正規表現ツール
- データを掃除する(Cleanse)ツール
ハンズオン
一通り「データ解析」に関する座学を終えた後は、実データを活用したハンズオンへと移りました。
まとめ
という訳でAlteryx Inspire 2018:トレーニングセッション「構文解析の基本」のレポートでした。
各種分析や可視化を行うためには、それらのアクションを行うために適した「データ構造」や「データ内容」に予め加工・整形しておく必要があります。「データ解析」はその部分に該当する、所謂「データ前処理」の肝となる重要な処理となります。地道な作業ではありますが、データの内容や状況に適した解析を行う事で後続の作業の捗り具合も違ってくるのでしっかりとマスターして行きたいですね。
Alteryxロードショーとワークショップを開催します
2018年7月26日(木)にAlteryxロードショーとワークショップを開催します。すでにAlteryxをご活用中のお客様はもちろん、導入を検討している方、国内外におけるデータ分析の最新情報を知りたい方にもおすすめです。ぜひ、この機会にAlteryxの利便性を実感してください。