【新機能】AWS Data PipelineですべてのAmazon RDSを簡単に指定できるようになりました

AWS Data Pipeline

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

おはようございます、城内です。
最近急に寒くなり、寒暖差アレルギー的な鼻水とくしゃみが止まりません。。

ということで、今回はData Pipelineの新機能紹介です。
※アップデートは先月発表されていましたが、諸々の事情がありまして・・・。

はじめに

タイトルをパッと見ると、「えっ、Data PipelineのデータソースにRDSを指定するのは前からできるけど・・・」という感じですが、ポイントは”すべてのRDSを簡単に”というところです。

つまりは、指定の仕方が変わったよということです。

試してみる

では、さっそくRDSからS3にテーブルデータをコピーするData Pipelineを作成してみたいと思います。RDSは、あえて変更点が分かり易いように、外部ドライバーが必要なOracle DB SE Oneでいきます。

Create Pipeline

このステップでは、特に変更はありません。

まだテンプレートも更新されていないようで、[Source]の項目で[Build using a template]からRDS関連のテンプレートを選択しても、従来の設定方法のままのようでしたので、[Build using Architect]を選択し、[Edit in Architect]ボタンをクリックします。

dp_21

dp_22

Architect

このステップでは、変わったポイントを中心に説明します。

まずは、[Add data node]ボタンをクリックし、データノードを追加します。
[Name]に任意の名前を入力し、[Type]は[SqlDataNode]を選択します。

dp_13

次に、[Table]に対象のテーブル名を入力します。
そして、オプションの中から[Database]を選択します。

dp_14

ここで、RDSを設定するためのオブジェクトが作成できます。

dp_15

RDSの設定は、[Others]の項目で行います。ここが変わったポイントです!

[Type]で[RdsDatabase]が選択でき、[Rds Instance Id]でインスタンスIDを入力するだけで指定ができます。
従来は、Oracle DBやSQL Serverであれば別途ドライバーを用意し、かつ、[Connection String]で接続先のDBに合わせた接続文字列を指定する必要がありましたが、それがインスタンスIDとS3に格納したドライバーを指定するだけで済むようになりました。
(※この辺りは、アップデート前の状態をはっきり把握できていなかったため、今回の差分という点では若干曖昧です。。)

ということで、あとは[Jdbc Driver Jar Uri]と[Database Name]を追加しておきます。

dp_16

と、変わったポイントは以上になります。

あとは、以下のような感じで設定してみてください。

dp_07

dp_17

dp_18

dp_19

dp_20

Execution Details

実行結果は以下の通りです。

dp_23

S3にもちゃんとファイルが出力されています。

dp_24

さいごに

そんなに劇的なアップデートではないかもしれませんが、Data Pipelineも少しずつ進化しているんだぞ!ということでご紹介でした。

参考情報