[Talend]tRSSInputを利用してRSSフィードを読み込む

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

はじめに

こんにちは。DI部の大高です。

今回はTalendのコンポーネント「tRSSInput」を紹介したいと思います。

前提条件

Talendのバージョンは「Talend Open Studio for Big Data」の「Version 7.0.1」で検証しています。

tRSSInputについて

「tRSSInput」を利用するとRSSフィードを読み込むことができます。

「tRSSInput」コンポーネントのTalend Helpページはこちらです。

tRSSInput

では、具体的に以下で解説していきます。

ジョブの説明

「tRSSInput」でRSSフィードを読み込み、「tLogRow」で読み込んだフィードを標準出力に表示します。

「tRSSInput」コンポーネントの設定

外部モジュールのインストール

「tRSSInput」コンポーネントですが、パレットからドラッグ&ドロップした段階で外部モジュールのインストールが促されますので「インストール...」をクリックします。

インストール対象のモジュール「feed4j.jar」と「nekohtml.jar」が表示されていますので「全てのモジュールをダウンロード及びインストール」をクリックしてインストールします。

インストール後には警告が消えて問題なく利用できるようになります。

コンポーネントの設定

コンポーネントには取得したいRSSフィードの情報を設定していきます。

RSS URL

取得したいRSSフィードのURLを指定します。今回はDevelopers.IOのRSSフィードを指定してみました。

から規約を読む

このオプションを有効にすると、指定した日時以降のRSSフィードを取得することができます。

今回は「2018-10-30 00:00:00」を指定してみました。

=最大記事数

このオプションを有効にすると、「最大量」として読み込む記事数を絞り込むことができます。

今回は「10」件にしてみました。

エラー強制終了

このオプションを有効にするとエラー発生時にジョブが強制終了するようになります。

今回は有効にしてみました。

スキーマ定義

スキーマ定義は固定となっており、以下のとおりとなります。

「tLogRow」コンポーネントの設定

RSSフィードの情報はそれなりに文字数が多いので、「tLogRow」コンポーネントでは「モード」を「縦に出力」として読みやすくしてみました。

実行結果

設定は以上です。実際にこのジョブを実行すると以下のように出力されます。

[statistics] connecting to socket on port 3822
[statistics] connected
.----------------------------------------------------------------------------------------------------------------------------------.
|                                                          #1. tLogRow_1                                                           |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| key         | value                                                                                                              |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| TITLE       | Web×IoTメイカーズチャレンジ2018-19 in 札幌にチューターとして参加してきました                                                                    |
| DESCRIPTION | こんにちはさかじです。今日は技術的な話ではないですが ハンズオン 2018/10/13(土) – 14(日) ハッカソン 2018/10/27(土) – 28(日) 計4日に渡って実施された総務省北海道総合通信局Web× […] |
| PUBDATE     | 30 Oct 2018 00:52:37 GMT                                                                                           |
| LINK        | https://dev.classmethod.jp/references/web_iot_maker_sapporo/                                                       |
+-------------+--------------------------------------------------------------------------------------------------------------------+

.----------------------------------------------------------------------------------------------------------------------------------.
|                                                          #2. tLogRow_1                                                           |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| key         | value                                                                                                              |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| TITLE       | AWS WAFフルログでRedactedを使ってセンシティブ情報を記録しないようにしてみた                                                                      |
| DESCRIPTION | こんにちは、臼田です。 皆さん、WAF使ってますか? 先日フルログを取得できるようになったAWS WAFですが、その際にRedacted機能も追加されたのでこれを紹介したいと思います。 フルログ自体については下記をご参照 […] |
| PUBDATE     | 30 Oct 2018 00:43:32 GMT                                                                                           |
| LINK        | https://dev.classmethod.jp/cloud/aws/use-redacted-in-aws-waf/                                                      |
+-------------+--------------------------------------------------------------------------------------------------------------------+

.----------------------------------------------------------------------------------------------------------------------------------.
|                                                          #3. tLogRow_1                                                           |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| key         | value                                                                                                              |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| TITLE       | 【速報】マルチAZなRDSもインスタンスの停止に対応しました!                                                                                    |
| DESCRIPTION | 以前はシングルAZなRDSでしか対応していなかったRDSの停止ですが、突如としてマルチAZなRDSでも停止処理に対応しました!! Amazon RDS Enables Stopping and Starting of M […] |
| PUBDATE     | 29 Oct 2018 22:21:30 GMT                                                                                           |
| LINK        | https://dev.classmethod.jp/cloud/aws/stopping-multiaz-instance/                                                    |
+-------------+--------------------------------------------------------------------------------------------------------------------+

.----------------------------------------------------------------------------------------------------------------------------------.
|                                                          #4. tLogRow_1                                                           |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| key         | value                                                                                                              |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| TITLE       | re:Invent公式アプリが2018対応しました #reinvent2018                                                                            |
| DESCRIPTION | AWS re:Invent公式アプリがアップデートされました re:Invent参加者にとって必需品とも言えるAWS re:Inventアプリが更新され、2.0.0になり、2018年版となりました。 ダウンロードは、以下 […] |
| PUBDATE     | 29 Oct 2018 17:06:31 GMT                                                                                           |
| LINK        | https://dev.classmethod.jp/cloud/aws/reinvent-app-2018/                                                            |
+-------------+--------------------------------------------------------------------------------------------------------------------+

[statistics] disconnected

「https://dev.classmethod.jp/feed」のフィード情報が読み込まれました!なお、「PUBDATE」はGMTなので日本時間で考える(+9時間)と、一番古い記事は設定どおり「2018-10-30 00:00:00」以降になっています。

まとめ

以上、「tRSSInput」コンポーネントの紹介でした。

RSSフィードを読み込んでなにか処理をしたい場合には「tRSSInput」コンポーネントが利用できるかと思います。

それでは。