Alteryx Designerのチュートリアルを全部試してみた #alteryx #15 | Alteryx Advent Calendar 2016

Alteryx Advent Calendar 2016 「カスタマーストーリー」を支えるツール特集

みかみ

2016.12.15

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは。DI部三上です。

当エントリは『Alteryx Advent Calendar 2016』の15日目のエントリです。

Alteryx Designerをさわってみました！

はじめに

三上@当エントリ執筆者のSpec：「Alteryxって、何ですか？」（あせ

・・・。

→まずはお勉強をば。。

→なにやらいろいろできそう＠＠！

習うより慣れろ！

で、チュートリアル、やってみました。

やってみよう

動作環境

OS：Windows 10（Mac Sierra(10.12.1) VMware Fusion）
Alteryx Designer Version：10.6.8.17850
Redshift Cluster Version：1.0.1125

Tutorial 01：データ準備

AlteryxにデータをInputします。

今回は、郵便番号データをcsvファイルから読み込んでみます。

レコード数：約12万件

日本郵政のダウンロードページから、「全国一括」データをダウンロードしました。

Alteryxを立ち上げて、[File] > [New Workflow] > [Input Data]アイコンを配置します。

ダウンロードしておいた郵便番号のcsvを選択して開きます。

→文字化けしとる。。（S-JISですものね。。。orz

そんなときには、エンコードマクロを使います！

※マクロ展開してできた _externals\1配下のファイルを置き換えて、ツール登録しました。

→登録したマクロを配置して、Inputファイルを選択します。

→Selectをつなげます。

→実行。

→文字化けなおったー！ｖ

実行時間：3.7 sec

csvからデータをInputできました。

Tutorial 02：データをフィルタリング

データをフィルタリング＆ソートします。

フィルタリングとソートに使用するカラム名を変更しておきます。

→Filterアイコンを配置します。

→Filter条件を設定します。

今回は、東京都のデータのみ抽出してみます。

→FilterアイコンのTrueの先に、Sortアイコンを配置します。

→Sort条件を設定します。

郵便番号の昇順を設定しました。

→実行。

FilterのTrueタブに、東京都のデータのみが抽出されています。

SortのOutputタブを見ると、ちゃんと郵便番号の昇順に並び替えられてます。

実行時間：3.8 sec

フィルタリングとソートができました。

Tutorial 03：データをブレンディング

別ソースのデータをブレンディングします。

今回は、郵便番号データに住所CD、都道府県CD、市区町村CD、町域CDを付与してみます。

住所.jpから、全国の住所データをダウンロードしました。

レコード数：約15万件

郵便番号データから、郵便番号と住所情報を抽出します。

→住所データから、付与したいコードとフィルター条件に指定したいカラムを抽出します

→住所データから、東京都の有効なデータをフィルタリングします。

→郵便番号をキーにしてJOINしたいのですが、住所データの郵便番号にはハイフンが入っていました。。

Formulaアイコンをつなげて、ハイフンを除去します。

※Formulaツールで使用できる式は、configウィンドウの「Function」タブから選択できます。

→Joinアイコンを配置して、結合条件を設定します。

→最後に、sortをつなげて、実行。

→郵便番号＋住所データが取得できました！

実行時間：9.4 sec

※ただし、この実行時間はS-JIS→UTF8変換マクロ(β版)が占める割合が大きいと思われます。

ワークフロー実行中、それぞれのアイコンにプログレス表示が出ますが、

各マクロ実行時間が約3sec（体感）

→文字コード変換なしの場合の実行時間は3.4secほどでしょうか。

以下、個人的趣味ですが。。

RDB@MariaDB(10.1.19)からデータ抽出する場合と、実行時間を比較してみました。

郵便番号データをLOAD

create table m_postal_code(
    id varchar(255),
    code_pre varchar(255),
    code varchar(255),
    pref_kana varchar(255),
    city_kana varchar(255),
    addr_kana varchar(255),
    pref varchar(255),
    city varchar(255),
    addr varchar(255),
    col1 varchar(255),
    col2 varchar(255),
    col3 varchar(255),
    col4 varchar(255),
    col5 varchar(255),
    col6 varchar(255),
    PRIMARY KEY(code, addr)
);


load data local infile 'C:/Users/mikami.yuki/KEN_ALL.CSV' into table m_postal_code fields terminated by ',' enclosed by '"';

住所データをLOAD

create table m_addr(
    addr_cd varchar(255),
    pref_cd varchar(255),
    city_cd varchar(255),
    area_cd varchar(255),
    postal_cd varchar(255),
    office_cd varchar(255),
    delete_flg varchar(255),
    pref varchar(255),
    pref_kana varchar(255),
    city varchar(255),
    city_kana varchar(255),
    addr varchar(255),
    addr_kana varchar(255),
    addr_description varchar(255),
    col1 varchar(255),
    col2 varchar(255),
    col3 varchar(255),
    col4 varchar(255),
    col5 varchar(255),
    col6 varchar(255),
    col7 varchar(255),
    col8 varchar(255),
    PRIMARY KEY(postal_cd, addr)
);


load data local infile 'C:/Users/mikami.yuki/zenkoku.csv' into table m_addr fields terminated by ',' enclosed by '"' ignore 1 lines;

SQLクエリ実行

select 
    p.code,
    a.addr_cd, 
    a.pref_cd,
    a.city_cd,
    a.area_cd,
    p.pref_kana,
    p.city_kana,
    p.addr_kana,
    p.pref,
    p.city,
    p.addr
from 
    m_postal_code p 
    inner join (
        select 
            addr_cd,
            pref_cd,
            city_cd,
            area_cd,
            replace(postal_cd, "-", "") as postal_cd 
        from 
            m_addr 
        where 
            delete_flg = "0" 
            and pref = "東京都"
    ) a 
    on p.code = a.postal_cd 
where 
    pref = "東京都"
    order by p.code
;