Alteryx 2020.3 新機能 : Browseツールの新機能

こんにちは、小澤です。

現地時間2020年9月1日にAlteryx 2020.3がリリースされました。 今回は、BrowseツールのProfile機能に関する新機能を紹介していきます。

Browseツールの新機能

BrowseツールではProfile機能において、以下の新機能追加や変更が行われています。

  • 処理速度向上のため利用するデータを最大300MBまでに制限
  • 浮動小数点型(Float, Double型)のユニークカウントの表示
  • データの型を表すアイコンの変更
  • 集計の際にサンプリングした場合のアイコン表示
  • 列名とデータの型でのフィルタリング

これらを順に見ていきます。

処理速度向上のため利用するデータを最大300MBまでに制限

BrowseツールのProfile機能ではデータの代表値などを表示するための計算が必要なため、 データが巨大な場合表示されるまで時間がかかることがありました。

Alteryx Designer 2020.3からはこの処理を改善するために、読み込む対象を最大で300MBまでに変更されています。

この機能はBrowseツールが受け取るデータ量そのままではなく、ファイル化して圧縮した時のサイズで判定されます。 そのため、直前のツールの出力が300MB以上であってもすべて利用されることがあります。

また、データサイズは列数やデータの型によっても異なるため、データ件数による絞り込みは行われていないことにご注意ください。 極端なケースだと、1行で300MBあるデータの場合、1件目のみが対象になります。

300MB以上になったから途中で切ったということ自体の表示はされないので全体のサイズを見ながら確かめる必要があります。 また、300MBまでの取得はランダムサンプリングではなく、データの先頭行から順に行われます。 そのため、同じ値が多く含まれる列でデータがソートされているような場合には、一部の値のみが扱われる状態となりますので、ご注意ください。

浮動小数点型(Float, Double型)のユニークカウントの表示

こちらは全体のProfileではなく、個別の列を選択した際に表示されるものとなります。 以下のようにサマリの中にユニークカウントが表示されるようになっています。

データの型を表すアイコンの変更

各列ごとの情報の部分でデータがどの型であるかを示すアイコンに変更が加わっています。

  • 旧バージョン(~2020.2)
  • 新バージョン

集計の際にサンプリングした場合のアイコン表示

データ量が多く、ユニークカウントの値が大きくなる場合、データ中の各価ごとのカウントを取るのに非常に時間がかかります。 そのため、ランダムサンプリングしたものを対象にカウントが行われる場合があります。 そういった処理が成された際には以下のようなアイコンが表示されるようになりました。

列名とデータの型でのフィルタリング

データの列数が多い場合、Profileの一覧の中から特定の列を見つけるのが大変な作業になります。 そういった作業をやりやすくするために、表示する列のフィルタが可能になりました。

Profileの右上にある漏斗のアイコンをクリックすると以下のような表示がされます。

ここで列名とデータの型でのフィルターが可能です。 選択すると以下のようにExcelのフィルターのような表示がされるので、必要なもののみを選択していきます。

おわりに

今回は、Alteryx 2020.3新機能のうち、BrowseツールのProfileに関係を紹介しました。 1つ1つはそれほど大きな変更ではありませんが、細かいところまで使いやすくするアップデートが行われていることとがうかがえます。