Alteryx 2018.3 新機能:ワークフローに任意のキャッシュポイントを設定出来るようになりました #alteryx
日本時間の2018年08月28日、Alteryxの最新バージョンとなる「v2018.3」がリリースされました。
Did somebody say #Visualytics, faster workflows and code-friendly tools? We did! In our upcoming Alteryx Analytics 2018.3 release you can have it all. Learn more here: https://t.co/7LaxVnQ9Q0 pic.twitter.com/w9reFJUg7Y
— Alteryx (@alteryx) 2018年8月28日
当エントリではv2018.3の新機能である「ワークフローに任意のキャッシュポイントを設定」についてその内容をご紹介したいと思います。
ワークフローのキャッシュポイント機能でワークフロー作成・実践が更に便利に!
v2018.3では、ワークフローの任意の箇所に「キャッシュポイント」を設定出来るようになりました。キャッシュポイントを設定する事で、そのポイントまで処理されたデータを一時的に保存して、処理時間を大幅に短縮出来るようになります。
早速、データを使ってその機能を試してみたいと思います。キャッシュ処理を行わせるという事で、処理に少々時間が掛かるようなボリューム感のデータを用意します。
下記サイトからサイズの大きい「ml-latest.zip」をダウンロード、解凍したファイルを使います。
サンプルで作成したワークフローは以下。レーティングしたデータ(ratings.csv)と映画のマスタデータ(movies.csv)をキー項目(movieid)でジョインし、タイムスタンプ項目がUnixTimestamp形式(1970年1月1日午前0時0分0秒からの形式的な経過秒数)であったため、その項目をTimestamp型の情報に変換を行う...という内容です。今回実行したケースでは、処理時間はちょうど1分掛かりました。
処理実行後のワークフローの任意のポイント(ツールアイコン)上で右クリックメニューを展開すると、以下の様に「Cache and Run Workflow」というメニューが選べる様になっています。早速これを選択してみます。
するとワークフローが改めて実行され始めました。既存実行時よりも少々時間が掛かる形となって処理終了。この処理でデータがキャッシュされた形となったようです。ツールアイコンの表示内容も変わりました。
上記作成したワークフローに処理を追加してみます。ここでは個々のレーティング情報を映画タイトル別に集計して「映画タイトル毎の平均値」を出してみる事にしました。
ワークフロー再実行。すると、キャッシュ化されたところの処理はスキップされ、新しく追加したツールの部分から処理が実行されました。
ワークフロー実行完了。キャッシュ化された部分の処理がスキップされた事で、処理時間も大幅に削減出来ました。
キャッシュ機能をOFFにしたい場合は対象箇所で再度右クリックしてメニューから「Clear Cache」を選択すればOKです。
まとめ
という訳で、Alteryx 2018.3の新機能「ワークフローに任意のキャッシュポイントを設定」の内容紹介でした。Alteryxのワークフロー作成では、処理の挙動、結果の内容を確認するために試行錯誤する部分がどうしても出てきてしまうので、この機能で「途中までの処理時間を短縮・削減出来る」というのは非常に嬉しいポイントです。この機能を活用してより効率的に、バリバリワークフローを作成して行きたいものですね!
Alteryxの導入なら、クラスメソッドにおまかせください
日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。