[レポート]In-Databaseについて(ちょっと)深く知る – Alteryx Inspire 2019 #alteryx19

2019.06.13

DI部プリセールスエンジニアの兼本です。

現地時間2019年06月10日〜2019年06月14日に米国ナッシュビルで開催されているAlteryxの年次カンファレンスイベント「Inspire 2019」。今回クラスメソッドからは計6人のメンバーが現地参加しています。

当エントリではイベント1日目に行われたトレーニングセッション「Dive Into In-Database Workflow」について、その内容をご紹介いたします。

目次


 

セッション概要

当トレーニングセッションの概要は以下の通りです。

セッションタイトル:
Dive into In-Database Workflows

講師:
Joshua Burkhow (PROKARMA社エンジニア)

セッション概要:
Pulling data from a large database? Large tables can quickly slow down data being brought into Designer. Why not just leave the data in the database? In this class, shift the compute context off of your machine and into a database by learning about the in-DB tool palette.
(大規模データベースからデータを取得していますか。大容量のテーブルでは、Designerにデータを取り込む速度がすぐに遅くなる可能性があります。データベースにデータをそのまま残さないのはなぜですか。このクラスでは、In-Databaseツールについて学習し、計算コンテキストをローカルマシンからデータベースにシフトします。)

 

セッションレポート

トレーニングセッションの主な内容をレポートします。

 

なぜIn-Databaseなのか

  • パフォーマンスの改善が期待できる
  • プラットフォームへの投資を活用
  • 高度なクエリ、SQLコードを利用出来る

 

サポートするデータベース

  • Amazon Redshift
  • Cloudera Impala
  • Databricks
  • EXASOL
  • Hive
  • HP Vertica
  • IBM Netezza
  • Microsoft Analytics Platform System
  • Microsoft Azure SQL Database
  • Microsoft Azure SQL Data Warehouse
  • Microsoft SQL Server
  • Oracle
  • Pivotal Greenplum
  • PostgreSQL
  • SAP Hana
  • Snowflake
  • Spark ODBC
  • Teradata

 

In-Databaseツールの紹介

In-Database カテゴリには以下のツールが含まれています。In-Database処理は通常のデータ入力/出力ツールや閲覧ツールとは異なる専用の青いアイコンを使用して作成します。
これらのツールを使用してワークフローを開発することで、SQL文を記述することなく、データベースに対するSQLバッチ処理を作成することができます。

In-Databaseツールを使用して作成したワークフローはデータベースサーバ上でSQLバッチとして実行されるわけですが、Data Stream INツールあるいはData Stream OUTツールを使用することで、ローカルのデータをデータベースにアップロードしたり、In-Database処理で集計した結果のデータをローカルにダウンロードすることも可能です。
例えば、以下の例ではローカルPCにある顧客データをデータベースサーバの一時テーブルにアップロードし、データベース上のデータと結合・集計した上で、その結果だけをローカルにダウンロードしています。

 

パフォーマンスへのベネフィット

In-Databaseツールを使うことの1番のベネフィットは、必要最低限のデータだけをローカルに移動することで、ネットワークへの負荷を低減し、また、少ないデータを使用してワークフローを実行できることで、Alteryx側の処理負荷を抑え、集計速度を向上できることにあると言えます。
例えば、通常のワークフローでは、2,000,000件のデータと380件のローカルデータを結合して229,845件のデータを作成するために300Mbのデータをローカルにダウンロードしているわけですが、In-Databaseをうまく使用することで、229,845件(36.8Mb)のデータだけをダウンロードすることができます。

 

まとめ

いかがでしたでしょうか。本セッションではIn-Databaseの使い方についてご紹介をいたしました。
In-Databaseツール自体は以前から提供されているツールですが、改めて見直してみると便利なツールだと再確認できました。

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400