Alteryxを使用してRedshiftへテキストデータをバルクロードする

「カスタマーストーリー」を支えるツール特集

甲木洋介

2017.06.23

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

こんにちは、yokatsukiです。

今回、とある案件でAlteryxの処理結果をRedshiftにロードする必要が出てきました。Alteryxは、Redshiftにロードする方法がいくつかあるので、それぞれについて動作を確認しました。

AlteryxによるRedshiftデータロードを試す

環境

MacBook Pro (Retina, 13-inch, Early 2015)
macOS Sierra 10.12.5
Windows 10 Pro 64bit on WMware Fusion 8.5.7
Alteryx Designer x64 11.0.6.28907
Amazon Redshift ODBC Driver x64 1.3.1.1000
Amazon Redshift 1.0.1351

dc1.large 2nodes

準備

入力データ準備

まず、ロードに使用するデータを準備します。

今回は、入力データとしてTableau社提供のサンプルデータ「Superstore」の日本語版を使用します。このサンプルデータにはテーブルに相当する複数のシートが含まれていますが、この中でも一番ポピュラーなOrdersを使用します。

Alteryxは本来、Excelのワークシートを直接読み取ることができるのですが、現在のところShift-JISが扱えないので、対策としてUTF-8形式のテキストファイルに変換します。ついでに区切り記号も信頼と実績のTSV(タブ区切り)にしておきます。

Superstoreサンプルデータ（不具合修正版）｜ Tableau Community

2017年6月28日追記：Alteryxの新バージョン 11.3でShift-JISが使用できるようになりました！

リンク先のワークブックをダウンロード後、Excelで開き、Ordersシートをタブ区切りテキストとして保存します。

そして、保存した.txtファイルをメモ帳で開き、文字コードをUTF-8に変換して保存します。

これで、ヘッダ付きのUTF-8形式、タブ区切りのデータが準備できました。

参考までに、作成したファイルをmacOSのfileコマンドで確認します。結果は以下です。

% file 0-Sample\ -\ Superstore\ Sales\ Japan-2013\(revised\).txt
0-Sample - Superstore Sales Japan-2013(revised).txt: UTF-8 Unicode (with BOM) text, with very long lines, with CRLF line terminators

こちらのファイルの中身をRedshiftにロードします。

ODBC設定

次に、AlteryxとRedshiftを繋ぐ設定を行います。

Alteryxとデータベースの接続は、Oracleなど一部のベンダー製品は固有の接続方法が使えますが、基本的にはODBCを使います。Redshiftもこの基本に従い、ODBCを使った接続設定を行います。

ODBC接続の設定方法は、下記リンクが参考になります。

最新版をインストールするために、下記ページからWindows用のRedshift ODBCドライバをダウンロードし、インストールします。

Install and Configure the Amazon Redshift ODBC Driver on Microsoft Windows Operating Systems | Amazon Redshift Management Guide

余談ですが、ODBCドライバは上書きインストールできません。旧バージョンのODBCドライバをインストールしている場合は、一旦アンインストールしてから最新版をインストールして下さい。

インストールしたドライバに対し、Redshiftの接続情報を追加します。スタートメニューから、[Windows管理ツール]-[ODBCデータソース(64ビット)]を選択します。

ODBCデータソースアドミニストレーター(64ビット)ウィンドウが開きます。まずは追加を押します。タブは今回本ユーザしか使用しないので、ユーザーDSNのままで良いでしょう。表示されたデータソースの新規作成ウィンドウで、Amazon Redshift (x64)を選択し、完了を押します。

新しいウィンドウAmazon Redshift ODBC Driver DSN Setupが開くので、AWS管理コンソールからRedshiftクラスタの情報を確認し、サーバー名やポート番号、ユーザ名、パスワードなど、適切な接続情報を記入します。Data Source Nameは自由に付けて構いません。目的が分かるように付けておきます。

クエリのデータサイズは多くないので、データをまとめてメモリ上で処理できるよう設定します。Additional Optionsボタンを押し、表示されたAdditional Configrationウィンドウで、Retrieve Entire Results Into Memoryが選択されていることを確認します。確認したらOKボタンを押してウィンドウを閉じます。

設定が完了したらウィンドウ下のTestボタンを押します。成功を表すメッセージが出ればO.K.です。

失敗する場合は、エラーメッセージを確認しましょう。下の例では、パスワードを間違えています。

OKボタンを押すとウィンドウは閉じ、元のODBCデータソースアドミニストレーター(64ビット)ウィンドウに、作成したデータソースが追加されていることが確認できます。これでODBC接続の準備は完了です。

ワークフロー設定

準備ができたので、いよいよAlteryxのワークフロー設定を行います。Alteryx Designerを起動し、新しいワークフローにデータロードのフローを構成します。

ツール"Input Data"配置

AlteryxのツールパレットFavoritesもしくはIn/OutからInput Dataツールをフローへドラッグ＆ドロップします。

ツールを選択し、画面左側のConfigurationペインで、ファイル入力の詳細設定を加えます。

Configurationペインの一番上、Connect a File or Databaseのドロップダウンリストの右側▽を押し、File...を選択します。

ファイルから、先ほど作成したUTF-8タブ区切りのテキストファイルを選択します。

選択すると、追加の設定ウィンドウ(Resolve File Type)が表示されます。ここで、タブ区切りのテキストデータであること、一行目は見出しであること(First Row Contains Field Names)を設定しておきます。

ファイルの設定ができました。Update Sample(青いリンク)をクリックすると、ファイルの取り込みプレビューが行なえます。念のため、設定を一通り確認して、Code PageをUnicode UTF-8に設定しておきます。

これで一通りのデータ取り込み設定ができました。次はこのデータをRedshiftに出力する設定を行います。

ツール"Output Data"配置

データをRedshiftへバルクロードする設定を行います。バルクロードは内部で以下の動作を行います。

データをgzファイルにアーカイブ
アーカイブしたファイルをS3バケットへアップロード
(設定に応じてRedshiftテーブルの切り捨てや再作成)
COPYコマンドを使い、ロードしたファイルの内容をRedshiftテーブルへロード
S3へアップロードしたファイルを削除

ツールパレットFavoritesもしくはIn/OutからOutput Dataツールをフローへドラッグ＆ドロップします。Input Dataツールと近い場所に配置した場合は、自動的にワイヤ(接続線)が引かれますが、そうでない場合は手動でワイヤを引き、フローとして繋がるように設定します。