Alteryx v11.7:『データ加工・ETL』関連ツールの機能概要&ブログエントリまとめ #alteryx
Alteryxのワークフローを構成する「ツール」群は、バージョンを追う毎にその種類が増えて来ています。その数250種類(2017年12月、v11.7現在)。非常に数も多く内容のバリエーションに富んでいる為、全容把握はなかなかに大変です。そこで当エントリでは、その中から「ETL」:即ちファイルやデータの前処理、変換処理等のデータ加工を行うツール群について処理の概要や関連ドキュメント・また関連しているDevelopers.IOのエントリに関する情報についてまとめてみました。
目次
当エントリではデータ加工、ETLにおける処理として、公式ドキュメントで紹介されている「Preparation(データ準備)」「Join(結合)」「Parse(解析)」「Transform(変換)」について内容を紹介しています。
Preparation(データ準備・加工)
分析を行う前に必要な「事前準備」「データ前処理」を行うためのツール群です。
アイコン | ツール名 | 用途・用例 |
---|---|---|
Auto Field (オートフィールド) | 各文字列フィールドに対するフィールドの型を、各列がデータを格納出来る可能な限り小さなサイズに設定。 | |
・Auto Field Tool | ||
(※関連エントリはまだありません) | ||
Create Samples (サンプルの作成) | 入力レコードを2つまたは3つのランダムサンプルに分割。 ツールでは、推定サンプルと検証サンプルに含まれるレコードの割合を指定して使います。(合計が100%未満の場合、残りのレコードは保留サンプルになります) | |
・Create Samples Tool | ||
・AlteryxでPredictive系ツールを使う時の流れ | Developers.IO ・New Donorで学ぶAlteryxの実践的なサンプル | Developers.IO ・Alteryxのサンプリングツール比較 | Developers.IO | ||
Data Cleansing (データクレンジング) | 共通のデータクレンジングを自動的に実行。NULLや余分な空白を削除、文字列エントリからの数値のクリアなどが行えます。 | |
・Data Cleansing Tool | ||
・Alteryxでマトリクス分析 | Developers.IO | ||
Date Filter (日付フィルタ) | カレンダーベースのインタフェースを用いて、任意の日付基準に基づいたフィルタリングをデータに対して実施。開始日と終了日を指定して絞り込む等の処理を行えます。 | |
・Date Filter Tool | ||
(※関連エントリはまだありません) | ||
Filter (フィルタ) | データを、2つのストリームに分割する式に基づいてクエリし、True(条件式を満たすコード)とFalse(条件式を満たさないコード)に分割。任意の条件式に合致するデータを絞り込む際に活用出来ます。 | |
・Filter Tool | ||
・Alteryxで飛行機の経路っぽいものを出力する | Developers.IO ・Alteryxで範囲を指定してJoin | Developers.IO ・EXCELユーザーのためのAlteryx入門 (4).各種変換処理編 #alteryx | Developers.IO ・EXCELユーザーのためのAlteryx入門 (2).データクレンジング編 #alteryx | Developers.IO | ||
Formula (数式) | 1つまたは複数の式を使用してフィールドを作成または更新し、様々な計算やデータ操作を実施。欠損値やNULL値がある場合はゼロに置き換える、等を行いたい時に活用出来ます。EXCELで使える式は全てAlteryxで利用可能です。 | |
・Formula Tool | ||
・Alteryxで加重平均を求める | Developers.IO ・Alteryxでカテゴリカル変数をダミー変数に変換する | Developers.IO ・EXCELユーザーのためのAlteryx入門 (3).数式&計算式編 #alteryx | Developers.IO ・EXCELユーザーのためのAlteryx入門 (2).データクレンジング編 #alteryx | Developers.IO ・Alteryxで電話番号の表記を整える | Developers.IO ・Alteryxで文字列から必要な部分だけを抜き出す | Developers.IO | ||
Generate Rows (新しいデータ列の生成) | 新しいデータ列を生成。一連の数値や日付を作成する場合に便利です。特定の時系列データを生成したり、一年の日付データ365レコード分を作成出来たりします。 | |
・Generate Rows Tool | ||
・Alteryxで行を増やす | Developers.IO | ||
Impute Values (値の転嫁・変換) | 数値データフィールドの特定の値を、別の値に置換。NULL値を置き換えたりするのに便利です。給与などの情報が不足していてゼロを表示するよりもNULLを表示させておいた方が良さそうなケースの場合、平均値や中央値を用いて結果の精度を向上させる事が出来ます。 | |
・Imputation Tool | ||
(※関連エントリはまだありません) | ||
Multi-Field Binning (複数フィールドのビニング) | 予測分析で使用するために、複数の数値フィールドをタイルまたはビンにグループ化。トランザクションデータがある場合、「30〜35歳の男性で月額1万円を費やす」というような別々の異なる購入者ペルソナにデータを分類する事が出来ます。 | |
・Multi-Field Binning Tool | ||
(※関連エントリはまだありません) | ||
Multi-Field Formula (複数フィールドの数式) | 広範囲に渡るデータの計算や操作を実行するために、単一の式を使って複数のフィールドを作成・更新。複数のフィールドに欠損値またはNULL値がある場合、このツールを使ってそのNULL値をゼロに置き換える事が出来ます。 | |
・Multi-Field Tool | ||
・Alteryxで複数列に対してのMulti-Row Formula | Developers.IO ・Alteryxでカテゴリカル変数をダミー変数に変換する | Developers.IO ・EXCELユーザーのためのAlteryx入門 (3).数式&計算式編 #alteryx | Developers.IO ・Alteryx上で日本語ファイルの(UTF-8への)文字コード変換を行う(Multi Field Formula Tool編) | Developers.IO | ||
Multi-Row Formula (複数行の数式) | 広範囲の計算やデータ操作を実行するために、後続または前のデータ行のフィールドを参照出来る数式を用いて単一のフィールドを作成または更新。複数データを解析し、実行中の合計を作成する等の時に用いる事が出来ます。 | |
・Multi-Row Formula Tool | ||
・Alteryxで複数列に対してのMulti-Row Formula | Developers.IO ・EXCELユーザーのためのAlteryx入門 (3).数式&計算式編 #alteryx | Developers.IO ・Alteryxで移動平均を求める | Developers.IO ・Alteryxで全角・半角の変換を行う(カタカナ編) | Developers.IO ・Alteryxで全角・半角の変換を行う(アルファベット編) | Developers.IO | ||
Oversample Field (オーバーサンプリング) | 分析元データの性質を損なわないように、サンプリング処理の中で特定の種類のデータ比率を調整します。 | |
・Oversample Field Tool | ||
・AlteryxでPredictive系ツールを使う時の流れ | Developers.IO ・Alteryxのサンプリングツール比較 | Developers.IO | ||
Random % Sample (ランダム%サンプル) | データストリームを通過するレコードの乱数またはパーセンテージを生成。データの35%に基づいて分析を行いたい場合、この機能を使うことでランダムにデータを返す事が出来ます。 | |
・Random % Sample Tool | ||
・Alteryxで特定のキーでランダムサンプリング | Developers.IO ・Alteryxのサンプリングツール比較 | Developers.IO | ||
Record ID (レコードIDの付与) | 各レコードに一意の識別子を割当。顧客IDをレガシートランザクションに割り当てる為に活用する事が出来、将来的により正確なダイレクトマーケティング・プロモーションの提供が可能になります。 | |
・Record ID Tool | ||
・Alteryxで縦持ちデータに一意なIDを振る | Developers.IO ・Alteryxで複数列に対してのMulti-Row Formula | Developers.IO ・Alteryxでカテゴリカル変数をダミー変数に変換する | Developers.IO | ||
Sample (サンプル) | データストリームを数値やパーセンテージ、ランダムなレコードセットに制限。各地域の上位10店舗を抽出する場合に、ソートされたデータの各地域の最初の10レコードを選択する、という形で利用します。 | |
・Sample Tool | ||
・Alteryxのサンプリングツール比較 | Developers.IO | ||
Select (フィールドの選択・選択解除など) | フィールドの選択/選択解除/並べ替え、フィールドタイプやサイズの変更、及び説明を割当。ワークフロー内で読み込まれたデータの50カラムのうち5つのみが必要となる場合、5つの必須フィールド以外の全ての選択を解除する事で処理を高速化出来ます。 | |
・Select Tool | ||
・Alteryxで特定のキーでランダムサンプリング | Developers.IO ・EXCELユーザーのためのAlteryx入門 (4).各種変換処理編 #alteryx | Developers.IO ・EXCELユーザーのためのAlteryx入門 (2).データクレンジング編 #alteryx | Developers.IO | ||
Select Records (レコードの選択) | 不連続の範囲を含む特定のレコード及びレコード範囲を選択。トラブルシューティングやサンプリングに役立ちます。$100未満、または$150〜$150の範囲のレコードを探したい、というような場合に利用可能です。 | |
・Select Records Tool | ||
・Alteryxで行番号を指定してデータを絞り込む | Developers.IO | ||
Sort (並べ替え) | 1つ以上のフィールドの値に基いてレコードを並べ替え。 | |
・Sort Tool | ||
・Alteryxで縦持ちデータに一意なIDを振る | Developers.IO ・EXCELユーザーのためのAlteryx入門 (4).各種変換処理編 #alteryx | Developers.IO | ||
Tile (タイル) | フィールド内の値の範囲に基いて、データをセット(タイル)にグループ化。データの論理グループを作成します。高価値の顧客と低価値の顧客を分類するのに非常に適しています。 | |
・Tile Tool | ||
(※関連エントリはまだありません) | ||
Unique (重複行除去) | ユーザーが選択したフィールドに基いて、データを2つのストリーム(重複した一意のレコード)に分割。 | |
・Unique Tool | ||
・Alteryxで特定のキーでランダムサンプリング | Developers.IO ・AlteryxのUniqueツールの動きをちゃんと理解しておく | Developers.IO |
Join(データ結合)
様々な方法・手段で「データの結合」を行うためのツール群です。
アイコン | ツール名 | 用途・用例 |
---|---|---|
Append Fields (フィールド項目の追加) | ソース入力のフィールドをターゲット入力のすべてのレコードに追加。ターゲット入力の各レコードは、ソース入力の各レコードごとに複製されます。 | |
・Append Fields Tool | ||
・Alteryxで範囲を指定してJoin | Developers.IO ・Alteryxで加重平均を求める | Developers.IO ・Alteryxで項目ごとの回答率を調べる | Developers.IO | ||
Find Replace (検索&置換) | 1つのデータストリームから1つのフィールドのデータを検索し、別のストリームから指定されたフィールドに置換。 ExcelのVLOOKUPに似ています。 | |
・Find Replace Tool | ||
・AlteryxのFind Replaceツールでできること | Developers.IO | ||
Fuzzy Match (あいまい検索) | 一致するパラメータを指定することによって、データベースの重複していない重複を特定。 一致するものを見つけるために正確な値である必要はなく、構成プロパティで設定されたユーザー指定のパラメーターまたは事前に作成されたパラメーター内に入る必要があります。 | |
・Fuzzy Match Tool | ||
(※関連エントリはまだありません) | ||
Join (結合) | 2つのテーブルの共通性に基づいて2つの入力を結合。 SQL結合のイメージに近いが、結合の結果として3つの出力を作成するオプションを指定可能。 | |
・Join Tool | ||
・Alteryxで範囲を指定してJoin | Developers.IO ・EXCELユーザーのためのAlteryx入門 (5).結合処理編 #alteryx | Developers.IO | ||
Join Multiple (複数入力データの結合) | 入力テーブル間の共通性に基づいて2つ以上の入力を結合。 結合されたレコードだけがツールを介して出力され、結果として幅の広い(列になった)ファイルが作成されます。 | |
・Join Multiple Tool | ||
・Alteryxでレポーティング出力してみる | Developers.IO | ||
Make Group (グループの作成) | データ間の関係を取得し、その関係に基づいてデータをグループに組み立てます。 | |
・Make Group Tool | ||
(※関連エントリはまだありません) | ||
Union (統合) | 複数のデータストリームを1つの統合ストリームに追加。 フィールド名またはレコード位置に基づいて複数の入力を受け入れ、積み上げ出力テーブルを作成します。 | |
・Union Tool | ||
・EXCELユーザーのためのAlteryx入門 (5).結合処理編 #alteryx | Developers.IO ・Alteryxで各種結合をする | Developers.IO |
Parse(データ解析)
データの値を任意のルールに従って標準のテーブルスキーマに分割するためのツール群が揃っています。
アイコン | ツール名 | 用途・用例 |
---|---|---|
DateTime (日付時刻のフォーマット) | 式/フィルタツールの式や関数で使用できるように、日付/時刻データを標準化してフォーマット。 | |
・DateTime Tool | ||
・パース系ツールについてさわってみた #alteryx #23 | Alteryx Advent Calendar 2016 | Developers.IO | ||
RegEx (正規表現) | 堅牢なデータパーサーとして正規表現を実施。 ツールの構文解析のタイプを決定する4つのタイプの出力メソッドがあります。 | |
・RegEx Tool | ||
・Alteryxで電話番号の表記を整える | Developers.IO ・Alteryxで文字列から必要な部分だけを抜き出す | Developers.IO ・パース系ツールについてさわってみた #alteryx #23 | Alteryx Advent Calendar 2016 | Developers.IO | ||
Text To Columns (テキストから列に) | 1つの列のテキストを取り、1つまたは複数の区切り文字に基づいて文字列値を別々の複数のフィールドに分割。 | |
・Text To Columns Tool | ||
・AlteryxでS3から複数ファイルを取得する | Developers.IO ・EXCELユーザーのためのAlteryx入門 (2).データクレンジング編 #alteryx | Developers.IO ・Alteryxで文字列から必要な部分だけを抜き出す | Developers.IO ・パース系ツールについてさわってみた #alteryx #23 | Alteryx Advent Calendar 2016 | Developers.IO | ||
XML Parse (XML解析) | XMLの情報を読み取り、個々のフィールドを解析。 | |
・XML Parse Tool | ||
・パース系ツールについてさわってみた #alteryx #23 | Alteryx Advent Calendar 2016 | Developers.IO |
Transform(データ変換)
データを所定のルールに従って要約し、変換するためのツール群です。
まとめ
という訳で、Alteryxツール 機能概要&関連ブログエントリまとめ『データ加工・ETL編』のツール群の内容ご紹介でした。当エントリで紹介した内容の他にも以下エントリでテーマ・トピック毎にツール群の紹介をまとめていますので併せてご参照頂けますと幸いです。
- Alteryxツール 機能概要&関連ブログエントリまとめ | シリーズ | Developers.IO
- Alteryxで何が出来るのか – 実行可能全タスク251種 概要紹介&リファレンスまとめ (Ver 11.7: 2017年12月改訂版) #alteryx
- Alteryxツール 機能概要&関連ブログエントリまとめ(Ver 11.7 改訂版: データ加工・ETL編) #alteryx
- Alteryxツール 機能概要&関連ブログエントリまとめ(Ver 11.7 改訂版: レポート・ドキュメント編) #alteryx
- Alteryxツール 機能概要&関連ブログエントリまとめ(Ver 11.7 改訂版: 入出力・DB編) #alteryx
- Alteryxツール 機能概要&関連ブログエントリまとめ(Ver 11.7 改訂版: 分析編) #alteryx
- Alteryxツール 機能概要&関連ブログエントリまとめ(Ver 11.7 改訂版: 予測編) #alteryx
- Alteryxツール 機能概要&関連ブログエントリまとめ(Ver 11.7 改訂版: 地理情報編) #alteryx
- Alteryxツール 機能概要&関連ブログエントリまとめ(Ver 11.7 改訂版: その他) #alteryx