Alteryx v11.7:『データ加工・ETL』関連ツールの機能概要&ブログエントリまとめ #alteryx

2017.12.12

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

Alteryxのワークフローを構成する「ツール」群は、バージョンを追う毎にその種類が増えて来ています。その数250種類(2017年12月、v11.7現在)。非常に数も多く内容のバリエーションに富んでいる為、全容把握はなかなかに大変です。そこで当エントリでは、その中から「ETL」:即ちファイルやデータの前処理、変換処理等のデータ加工を行うツール群について処理の概要や関連ドキュメント・また関連しているDevelopers.IOのエントリに関する情報についてまとめてみました。

目次

当エントリではデータ加工、ETLにおける処理として、公式ドキュメントで紹介されている「Preparation(データ準備)」「Join(結合)」「Parse(解析)」「Transform(変換)」について内容を紹介しています。

Preparation(データ準備・加工)

分析を行う前に必要な「事前準備」「データ前処理」を行うためのツール群です。

アイコン ツール名 用途・用例
AutoField Auto Field (オートフィールド) 各文字列フィールドに対するフィールドの型を、各列がデータを格納出来る可能な限り小さなサイズに設定。
Create Samples (サンプルの作成) 入力レコードを2つまたは3つのランダムサンプルに分割。 ツールでは、推定サンプルと検証サンプルに含まれるレコードの割合を指定して使います。(合計が100%未満の場合、残りのレコードは保留サンプルになります)
DataCleansing Data Cleansing (データクレンジング) 共通のデータクレンジングを自動的に実行。NULLや余分な空白を削除、文字列エントリからの数値のクリアなどが行えます。
DateFilter Date Filter (日付フィルタ) カレンダーベースのインタフェースを用いて、任意の日付基準に基づいたフィルタリングをデータに対して実施。開始日と終了日を指定して絞り込む等の処理を行えます。
Filter Filter (フィルタ) データを、2つのストリームに分割する式に基づいてクエリし、True(条件式を満たすコード)とFalse(条件式を満たさないコード)に分割。任意の条件式に合致するデータを絞り込む際に活用出来ます。
Formula Formula (数式) 1つまたは複数の式を使用してフィールドを作成または更新し、様々な計算やデータ操作を実施。欠損値やNULL値がある場合はゼロに置き換える、等を行いたい時に活用出来ます。EXCELで使える式は全てAlteryxで利用可能です。
GenerateRows Generate Rows (新しいデータ列の生成) 新しいデータ列を生成。一連の数値や日付を作成する場合に便利です。特定の時系列データを生成したり、一年の日付データ365レコード分を作成出来たりします。
Imputation Impute Values (値の転嫁・変換) 数値データフィールドの特定の値を、別の値に置換。NULL値を置き換えたりするのに便利です。給与などの情報が不足していてゼロを表示するよりもNULLを表示させておいた方が良さそうなケースの場合、平均値や中央値を用いて結果の精度を向上させる事が出来ます。
MultiBin Multi-Field Binning (複数フィールドのビニング) 予測分析で使用するために、複数の数値フィールドをタイルまたはビンにグループ化。トランザクションデータがある場合、「30〜35歳の男性で月額1万円を費やす」というような別々の異なる購入者ペルソナにデータを分類する事が出来ます。
FormulaMultiCol Multi-Field Formula (複数フィールドの数式) 広範囲に渡るデータの計算や操作を実行するために、単一の式を使って複数のフィールドを作成・更新。複数のフィールドに欠損値またはNULL値がある場合、このツールを使ってそのNULL値をゼロに置き換える事が出来ます。
FormulaMultiRow Multi-Row Formula (複数行の数式) 広範囲の計算やデータ操作を実行するために、後続または前のデータ行のフィールドを参照出来る数式を用いて単一のフィールドを作成または更新。複数データを解析し、実行中の合計を作成する等の時に用いる事が出来ます。
Oversample Field (オーバーサンプリング) 分析元データの性質を損なわないように、サンプリング処理の中で特定の種類のデータ比率を調整します。
MacroRandomSample Random % Sample (ランダム%サンプル) データストリームを通過するレコードの乱数またはパーセンテージを生成。データの35%に基づいて分析を行いたい場合、この機能を使うことでランダムにデータを返す事が出来ます。
RecordID123 Record ID (レコードIDの付与) 各レコードに一意の識別子を割当。顧客IDをレガシートランザクションに割り当てる為に活用する事が出来、将来的により正確なダイレクトマーケティング・プロモーションの提供が可能になります。
Sample Sample (サンプル) データストリームを数値やパーセンテージ、ランダムなレコードセットに制限。各地域の上位10店舗を抽出する場合に、ソートされたデータの各地域の最初の10レコードを選択する、という形で利用します。
Select Select (フィールドの選択・選択解除など) フィールドの選択/選択解除/並べ替え、フィールドタイプやサイズの変更、及び説明を割当。ワークフロー内で読み込まれたデータの50カラムのうち5つのみが必要となる場合、5つの必須フィールド以外の全ての選択を解除する事で処理を高速化出来ます。
SelectRecords Select Records (レコードの選択) 不連続の範囲を含む特定のレコード及びレコード範囲を選択。トラブルシューティングやサンプリングに役立ちます。$100未満、または$150〜$150の範囲のレコードを探したい、というような場合に利用可能です。
Sort Sort (並べ替え) 1つ以上のフィールドの値に基いてレコードを並べ替え。
Tile Tile (タイル) フィールド内の値の範囲に基いて、データをセット(タイル)にグループ化。データの論理グループを作成します。高価値の顧客と低価値の顧客を分類するのに非常に適しています。
Unique Unique (重複行除去) ユーザーが選択したフィールドに基いて、データを2つのストリーム(重複した一意のレコード)に分割。

Join(データ結合)

様々な方法・手段で「データの結合」を行うためのツール群です。

アイコン ツール名 用途・用例
AppendFields Append Fields (フィールド項目の追加) ソース入力のフィールドをターゲット入力のすべてのレコードに追加。ターゲット入力の各レコードは、ソース入力の各レコードごとに複製されます。
FindReplace Find Replace (検索&置換) 1つのデータストリームから1つのフィールドのデータを検索し、別のストリームから指定されたフィールドに置換。 ExcelのVLOOKUPに似ています。
FuzzyMatch Fuzzy Match (あいまい検索) 一致するパラメータを指定することによって、データベースの重複していない重複を特定。 一致するものを見つけるために正確な値である必要はなく、構成プロパティで設定されたユーザー指定のパラメーターまたは事前に作成されたパラメーター内に入る必要があります。
MolecularJoin2 Join (結合) 2つのテーブルの共通性に基づいて2つの入力を結合。 SQL結合のイメージに近いが、結合の結果として3つの出力を作成するオプションを指定可能。
JoinMultiple Join Multiple (複数入力データの結合) 入力テーブル間の共通性に基づいて2つ以上の入力を結合。 結合されたレコードだけがツールを介して出力され、結果として幅の広い(列になった)ファイルが作成されます。
MakeGroup Make Group (グループの作成) データ間の関係を取得し、その関係に基づいてデータをグループに組み立てます。
Union Union (統合) 複数のデータストリームを1つの統合ストリームに追加。 フィールド名またはレコード位置に基づいて複数の入力を受け入れ、積み上げ出力テーブルを作成します。

Parse(データ解析)

データの値を任意のルールに従って標準のテーブルスキーマに分割するためのツール群が揃っています。

アイコン ツール名 用途・用例
DateTime (日付時刻のフォーマット) 式/フィルタツールの式や関数で使用できるように、日付/時刻データを標準化してフォーマット。
RegEx (正規表現) 堅牢なデータパーサーとして正規表現を実施。 ツールの構文解析のタイプを決定する4つのタイプの出力メソッドがあります。
Text To Columns (テキストから列に) 1つの列のテキストを取り、1つまたは複数の区切り文字に基づいて文字列値を別々の複数のフィールドに分割。
XML Parse (XML解析) XMLの情報を読み取り、個々のフィールドを解析。

Transform(データ変換)

データを所定のルールに従って要約し、変換するためのツール群です。

アイコン ツール名 用途・用例
Arrange (転置・並べ替え) データフィールドを手動で転置して並べ替え。各レコードが複数のレコードに変換され、フィールド記述データを使用して列を作成できるように、データが変換されます。
Count Records (レコード数カウント) ツールを通過するレコードの数を返す。
Cross Tab (データの縦→横変換) データテーブルの方向をピボット。データを変換して、垂直軸のデータフィールドを水平軸で表示し、指定された場所でデータを要約します。
Running Total (累積合計の計算) ファイル内のレコードごとの累積合計を計算。
Summarize (要約プロセスの実施) グループ化、集計、カウント、空間オブジェクト処理、文字列連結など、多数の要約プロセスを実行。
Transpose (データの横→縦変換) データテーブルの方向をピボット。縦軸に水平データフィールドが表示されるようにデータを変換します。
Weighted Average (加重平均の計算) 入力データフィールドの加重平均を計算。加重平均は一般的な平均と似ていますが、すべてのレコードが平均に等しく貢献するのではなく、重みのコンセプトはいくつかのレコードが他のレコードよりも貢献していることを意味します。

まとめ

という訳で、Alteryxツール 機能概要&関連ブログエントリまとめ『データ加工・ETL編』のツール群の内容ご紹介でした。当エントリで紹介した内容の他にも以下エントリでテーマ・トピック毎にツール群の紹介をまとめていますので併せてご参照頂けますと幸いです。

参考情報: