[Talend] Talend Open Studio チュートリアル① 〜ジョブの作成〜

talend

はじめに

業務でTalendを使うことになったのでメモ
環境構築から公式のチュートリアルのジョブの作成までやってみます。

TalendOpenStudioとは

TalendOpenStudioとは誤解を怖れずに言えば、高機能であるのにオープンソースでフリーなETLツールというところでしょうか。 ETLとは - Extract(抽出) - Transform(加工) - Load(書き出し) の頭文字を取って付けた名前であり、具体的に言えば

  • オンプレミスのデータベースから、データを抽出して、加工(日付カラムを追加したり、不要なデータを削除したり)して、クラウドのデータベースへ書き出す
  • クラウドにあるCSVファイルを抽出して、不要な値を削除して、クラウドにあるデータベースに書き出す

といった、どこかにあるデータを取り出して、必要な形へ加工して、必要な箇所へ必要な形式(ExcelやCSVでも可)で書き出す作業です。

Talendはそういった作業をGUIツールで直感的にノンプログラミングで出来るツールです。 ただ、GUIだけでは操作できない処理が必要になった時にはJavaで任意の処理を書くこともできるようになっているのが嬉しいですね。

動作環境

Mac 10.10.5
Talend 6.2.0
Mysql 5.7.9
Java 1.7.80

環境構築

TalendOpenStudioはこちらからダウンロードできます。

スクリーンショット 2016-07-05 10.28.08 スクリーンショット 2016-07-05 10.28.32 スクリーンショット 2016-07-05 10.29.28

ダウンロードしたら早速TalendOpenStudioを開いてみます。

スクリーンショット 2016-07-05 10.49.34 スクリーンショット 2016-07-05 10.50.28スクリーンショット 2016-07-05 10.51.24

初回フローでレイアウトの説明があり、ライブラリのダウンロードを促されますのでチェックして先に進むと上のような画面が表示されます。
これで準備は完了しましたのでチュートリアルをやってみます。公式のチュートリアルはWindows版でバージョンも4.1なので、今回貼っているスクリーンショットとはUIや手順で異なる箇所があります。

ジョブの作成

左ペインの「ジョブ」を右クリックして「ジョブの作成」を選択します。 スクリーンショット 2016-07-05 11.52.16 スクリーンショット 2016-07-05 11.53.22

これでジョブが作れましたので、次はメタデータを作成します。

スクリーンショット 2016-07-05 10.27.30

メタデータの作成の前にチュートリアルにあるサンプルのexampleFile.zipにあるcustomers_demo5mn.csvを使いますのでダウンロードしましょう。

「メタデータ」→「区切り記号付きファイル」を→クリックして「区切り記号付きファイルの作成」を選択します。 区切り記号付き付きファイルと表示されていて何のことかと思いましたが、CSVやTSVといったファイル形式のことですね。

スクリーンショット 2016-07-05 12.06.58 スクリーンショット 2016-07-05 12.08.29

任意の名前を入力して「Next」を選択します。

スクリーンショット 2016-07-05 12.08.54

「ブラウズ」を押してさっきダウンロードしたサンプルのcustomers_demo5mn.csvを指定します。

スクリーンショット 2016-07-05 12.10.35

「列名として先頭行を指定」にチェックを入れます。
指定したサンプルの中身が下に表示されますが、表示されなければ「プレビューを更新」を押してみます。

スクリーンショット 2016-07-05 12.23.19

最後に「key」を指定して、「Type」はintにして、「null可能」のチェックを外します。

スクリーンショット 2016-07-05 13.43.01

これで区切り記号付きファイルを作成できました。 これで今登録したファイルを使うことができるようになりましたので、GUI上で使ってみます。 さっき作った区切り記号付きファイルをドラッグします。

スクリーンショット 2016-07-05 13.43.22

ダイアログが表示されますがここでは「tFileInputDelimited」を選択します。

スクリーンショット 2016-07-05 13.43.44

これで先ほど登録した区切り記号付きファイルがコンポーネントとして表示されます。 このコンポーネントに対して何かしらの処理を加えてみます。今回はログを出力するための「tLogRow」というコンポーネントを使ってみます。

スクリーンショット 2016-07-05 15.12.36

tLogRowをドラッグして配置します。

スクリーンショット 2016-07-05 15.28.54

区切り記号付きファイルを右クリックして、「ロウ」→「メイン」と選択すると矢印が出ますので、矢印をtLogRowの方まで引っ張ります。

スクリーンショット 2016-07-05 15.29.40

これで準備は完了なので実行してみます。実行するには画面下部にある「実行」タブの中にある「実行」ボタンを押します。

スクリーンショット 2016-07-05 15.30.14

これでログが出力されたのがわかります。

今回の作業は区切り記号付きファイルの登録で使用するCSVファイルを登録、そのCSVファイルの中身を抽出してログを出力するというシンプルなジョブの作成です。
次回はチュートリアルの続きを順を追ってやってみます。