Challenge #36: Data Cleansing Extract Authors ～記事ごとの著者の一覧～ – Alteryx Weekly Challenge

Alteryx Weekly Challenge：Intermediate Level Advent Calendar 2018

実践！Alteryx Weekly Challenge

「カスタマーストーリー」を支えるツール特集

#ビッグデータ

#ビジネス・アナリティクス

#Alteryx

スズ

2018.12.09

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは。Alteryxサポートエンジニアとして勉強中のスズです。

当エントリは『Alteryx Weekly Challenge：Intermediate Level Advent Calendar 2018』の9日目です。

『Alteryx Weekly Challenge：Intermediate Level Advent Calendar 2018』では、Alteryx Communityで公開されているWeekly ChallengeのIntermediate Levelにひたすら1人で挑戦していきます。

今回は記事ごとの著者の一覧の作成に挑戦します。

動作環境

当エントリの執筆には、以下の環境を利用しています。

Windows 10 Pro
Alteryx Designer 2018.4.3.54046 英語版

Challenge #36: Data Cleansing Extract Authors

お題

今回挑戦するお題はこちら。

Challenge #36: Data Cleansing Extract Authors ｜ Alteryx Community

「Input」側のデータはこちら。各記事のデータが1列になっています。PMIDが記事を表し、FAUが著者を表しています。

「Output」側のデータはこちら。記事ごとに著者が出力されています。

解答の概要

今回作成するワーフクローは以下の通りです。

Formula、FilterツールでPMIDとFAUのデータを抽出
Multi-Row Formula、Formulaツールで列名を準備
Cross Tab、Select、Sort、FilterツールでPMIDごとに著者名を表示

PMIDとFAUのデータを抽出

Formulaツール（Preparation -> Formula）を使用して新しく「New_Field」列をV_WString型で作成し、PMIDにある記事の番号とFAUにある著者名を抜き出します。

式は以下の通り設定しています。

if Left([Field_1], 5) == "PMID-" then Right([Field_1], Length([Field_1]) - 6)
elseif Left([Field_1], 5) == "FAU -" then Right([Field_1], Length([Field_1]) - 6)
else Null()
endif

「Field_1」列の初めの5文字が「PMID-」の場合は「Field_1」列の「PMID- 」以降を出力
「Field_1」列の初めの5文字が「FAU -」の場合は「Field_1」列の「FAU - 」以降を出力
それ以外はNullを出力

Filterツール（Preparation -> Filter）を使用して、「New_Field」列がNullではないデータのみ抽出します。

列名の準備

Multi-Row Formulaツール（Preparation -> Multi-Row Formula）を使用して、新しく「Author_Num」列をV_WString型で作成し、「PMID」か著者の番号を出力します。

式は以下の通り設定しています。

if left([Field_1], 4) == "PMID" then "PMID"
elseif left([Row-1:Field_1], 4) == "PMID" then 1
else tonumber([Row-1:Author_Num]) + 1
endif

「Field_1」列の初めの4文字が「PMID」の場合は「PMID」を出力
1つ上の「Field_1」列の初めの4文字が「PMID」の場合は「1」を出力
それ以外の場合は1つ上の「Author_Num」列の数値に1足して出力

Formulaツールを使用して、新しく「Field_Name」列をV_WString型で作成します。「PMID」または「Author」に番号を付けて出力します。

式は以下の通り設定しています。

if [Author_Num] == "PMID" then [Author_Num] 
else "Author" + [Author_Num]
endif

「Author_Num」列が「PMID」の場合は「Author_Num」列を出力
それ以外の場合は「Author」に続けて「Author_Num」列（番号）を出力

Multi-Row Formulaツールを使用して新しく「ID」列を作成し、各記事にIDを割り当てていきます。

式は以下の通り設定しています。

if [New_Field] == "23755305" then 1
elseif left([Field_1], 4) == "PMID" then [Row-1:ID] + 1
else [Row-1:ID]
endif

「New_Field」列が「23755305」の場合は「1」を出力
「Field_1」列の初めの4文字が「PMID」の場合は1つ上の「ID」列の数値に1足して出力
それ以外の場合は1つ上の「ID」列を出力

PMIDごとに著者名を表示

Cross Tabツール（Transform -> Cross Tab）を使用して、IDごとにデータが表示されるようにします。Group Data by these Values に「ID」列を、New Column Headers に「Field_Name」列を、Value for New Columns に「New_Field」列を、Method for Aggregationg Values にConcatenateを選択します。