この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。
はじめに
こんにちは。DI部の大高です。
今回はTalendのコンポーネント「tRSSInput」を紹介したいと思います。
前提条件
Talendのバージョンは「Talend Open Studio for Big Data」の「Version 7.0.1」で検証しています。
tRSSInputについて
「tRSSInput」を利用するとRSSフィードを読み込むことができます。
「tRSSInput」コンポーネントのTalend Helpページはこちらです。
では、具体的に以下で解説していきます。
ジョブの説明
「tRSSInput」でRSSフィードを読み込み、「tLogRow」で読み込んだフィードを標準出力に表示します。
「tRSSInput」コンポーネントの設定
外部モジュールのインストール
「tRSSInput」コンポーネントですが、パレットからドラッグ&ドロップした段階で外部モジュールのインストールが促されますので「インストール...」をクリックします。
インストール対象のモジュール「feed4j.jar」と「nekohtml.jar」が表示されていますので「全てのモジュールをダウンロード及びインストール」をクリックしてインストールします。
インストール後には警告が消えて問題なく利用できるようになります。
コンポーネントの設定
コンポーネントには取得したいRSSフィードの情報を設定していきます。
RSS URL
取得したいRSSフィードのURLを指定します。今回はDevelopers.IOのRSSフィードを指定してみました。
から規約を読む
このオプションを有効にすると、指定した日時以降のRSSフィードを取得することができます。
今回は「2018-10-30 00:00:00」を指定してみました。
=最大記事数
このオプションを有効にすると、「最大量」として読み込む記事数を絞り込むことができます。
今回は「10」件にしてみました。
エラー強制終了
このオプションを有効にするとエラー発生時にジョブが強制終了するようになります。
今回は有効にしてみました。
スキーマ定義
スキーマ定義は固定となっており、以下のとおりとなります。
「tLogRow」コンポーネントの設定
RSSフィードの情報はそれなりに文字数が多いので、「tLogRow」コンポーネントでは「モード」を「縦に出力」として読みやすくしてみました。
実行結果
設定は以上です。実際にこのジョブを実行すると以下のように出力されます。
[statistics] connecting to socket on port 3822
[statistics] connected
.----------------------------------------------------------------------------------------------------------------------------------.
| #1. tLogRow_1 |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| key | value |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| TITLE | Web×IoTメイカーズチャレンジ2018-19 in 札幌にチューターとして参加してきました |
| DESCRIPTION | こんにちはさかじです。今日は技術的な話ではないですが ハンズオン 2018/10/13(土) – 14(日) ハッカソン 2018/10/27(土) – 28(日) 計4日に渡って実施された総務省北海道総合通信局Web× […] |
| PUBDATE | 30 Oct 2018 00:52:37 GMT |
| LINK | https://dev.classmethod.jp/references/web_iot_maker_sapporo/ |
+-------------+--------------------------------------------------------------------------------------------------------------------+
.----------------------------------------------------------------------------------------------------------------------------------.
| #2. tLogRow_1 |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| key | value |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| TITLE | AWS WAFフルログでRedactedを使ってセンシティブ情報を記録しないようにしてみた |
| DESCRIPTION | こんにちは、臼田です。 皆さん、WAF使ってますか? 先日フルログを取得できるようになったAWS WAFですが、その際にRedacted機能も追加されたのでこれを紹介したいと思います。 フルログ自体については下記をご参照 […] |
| PUBDATE | 30 Oct 2018 00:43:32 GMT |
| LINK | https://dev.classmethod.jp/cloud/aws/use-redacted-in-aws-waf/ |
+-------------+--------------------------------------------------------------------------------------------------------------------+
.----------------------------------------------------------------------------------------------------------------------------------.
| #3. tLogRow_1 |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| key | value |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| TITLE | 【速報】マルチAZなRDSもインスタンスの停止に対応しました! |
| DESCRIPTION | 以前はシングルAZなRDSでしか対応していなかったRDSの停止ですが、突如としてマルチAZなRDSでも停止処理に対応しました!! Amazon RDS Enables Stopping and Starting of M […] |
| PUBDATE | 29 Oct 2018 22:21:30 GMT |
| LINK | https://dev.classmethod.jp/cloud/aws/stopping-multiaz-instance/ |
+-------------+--------------------------------------------------------------------------------------------------------------------+
.----------------------------------------------------------------------------------------------------------------------------------.
| #4. tLogRow_1 |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| key | value |
+-------------+--------------------------------------------------------------------------------------------------------------------+
| TITLE | re:Invent公式アプリが2018対応しました #reinvent2018 |
| DESCRIPTION | AWS re:Invent公式アプリがアップデートされました re:Invent参加者にとって必需品とも言えるAWS re:Inventアプリが更新され、2.0.0になり、2018年版となりました。 ダウンロードは、以下 […] |
| PUBDATE | 29 Oct 2018 17:06:31 GMT |
| LINK | https://dev.classmethod.jp/cloud/aws/reinvent-app-2018/ |
+-------------+--------------------------------------------------------------------------------------------------------------------+
[statistics] disconnected
「https://dev.classmethod.jp/feed」のフィード情報が読み込まれました!なお、「PUBDATE」はGMTなので日本時間で考える(+9時間)と、一番古い記事は設定どおり「2018-10-30 00:00:00」以降になっています。
まとめ
以上、「tRSSInput」コンポーネントの紹介でした。
RSSフィードを読み込んでなにか処理をしたい場合には「tRSSInput」コンポーネントが利用できるかと思います。
それでは。