Alteryx Designer DesktopのPDFからテキスト抽出ツールを試してみた – Alteryx Inspire 2023

2023.07.30

こんにちは、スズです。

現地時間の2023年5月22日(月)~5月25日(木)に、ラスベガスにてAlteryx Inspire 2023が開催されました。Alteryx Inspire 2023で開催された様々なセッションの中に、『Designer Features You May Have Missed』(見逃しているかもしれないAlteryx Designerの機能)というセッションがありました。当該のセッションについては以下の記事でご紹介しています。

本記事では、『Designer Features You May Have Missed』のセッションにて紹介されたPDFからテキスト抽出ツール(PDF to Text Tool)についてご紹介します。

PDFからテキスト抽出ツールのご紹介

概要

PDFからテキスト抽出ツールは、PDFファイルからテキストを抽出することができるIntteligence Suiteのツールです。コンピュータビジョンのカテゴリ内に用意されています。

Alteryx Designer 2022.3にて新しく実装されました。

Alteryx Designer 2023.1では、「すべてのページに画像テンプレートの最初のページのアノテーションを適用」というオプションが追加されました。このオプションは、テンプレートの最初のページのアノテーションを全てのページに適用するかどうかを設定できます。

PDFファイルからテキストの抽出

まずはPDFファイルからテキストを抽出してみます。使用するファイルとして、以下のものを用意しました。1ページ目はバージョン2022.3のリリースノートからテキストを抜粋、2ページ目はバージョン2023.1のリリースノートからテキストを抜粋、3ページ目はPDF to Textツールのヘルプのページを画像として貼り付けています。

PDFからテキスト抽出ツールをキャンバスに配置して、PDFファイルを指定します。テキスト抽出オプションには、テキストおよび画像コンテンツを読み取るテキストコンテンツのみを読み取るがあります。

テキストおよび画像コンテンツを読み取るを選択して、ワークフローを実行し、閲覧ツールで結果を確認します。以下の画像の赤枠の上から順に、1ページ目、2ページ目、3ページ目から抽出したテキストとなっています。間に「<3)」という文字列が挟まっていますが、他はパッと見たところきれいにテキストを抽出できているようです。出力オプションラインを選択していたため、抽出したテキストは元のデータにあわせて行が分かれて表示されています。
補足となりますが、テキストおよび画像コンテンツを読み取るでは、日本語などの他の言語を指定することもできます。今回使用しているファイルは英語のテキストのみ含まれていますので、言語に英語を指定しています。

テキストコンテンツのみを読み取るを選択した場合は、テキストの抽出結果は以下の画像のようになりました。入力元のPDFファイルの3ページ目にあった文字は画像であったため、テキストは抽出されていません。

「すべてのページに画像テンプレートの最初のページのアノテーションを適用」のオプション

ここからは、バージョン2023.1にて追加されたオプション「すべてのページに画像テンプレートの最初のページのアノテーションを適用」を試してみます。このオプションは、画像テンプレートというツールが関わってきます。画像テンプレートツールもIntteligence Suiteのツールの1つで、コンピュータビジョンのカテゴリ内に用意されています。以下の画像の説明では、テキストへ変換ツールで使用とありますが、PDFからテキスト抽出ツールでも使用できます。PDFファイルや画像からテキストを抽出する際に、テンプレートを作成できるツールです。

以下のPDFファイルを用意しました。1ページ目と2ページ目に同じ形式のテーブルを用意しています。このPDFファイルを使って動作を試してみます。

画像テンプレートをキャンバスに配置して、ファイルを開くからPDFファイルを開くと、設定画面上にプレビューが表示されます。プレビューはページごとに表示されます。以下の画像では、PDFファイルの1ページ目を表示しています。

プレビューの画面上で範囲を選択すると、以下の画像のように範囲を赤く囲むことができます。これが注釈(アノテーション)です。作成した注釈には名前やタイプを設定できます。今回はテーブル形式ですので、注釈タイプはテーブルを選択します。注釈は複数設定することもできますが、今回はPDFファイルの1ページ目のテーブルに対してのみ、注釈を作成します。

画像テンプレートツールからPDFからテキストを抽出ツールのTの入力アンカーに接続します。ファイルを入力には、画像テンプレートツールで設定したものと同じPDFファイルを参照するよう設定します。出力オプションにはAlteryxテーブル形式を指定し、すべてのページに画像テンプレートの最初のページのアノテーションを適用を有効にします。

ワークフローを実行して閲覧ツールを確認します。出力結果は以下のように表示されました。画像テンプレートで設定した注釈の範囲のテキストが抽出されています。また、1ページ目だけでなく、2ページ目のテーブルのテキストも抽出されています。

PDFファイル全体の中からテーブル部分だけなど、同じような形式の一部分のみを抽出していきたいという場合に、画像テンプレートとすべてのページに画像テンプレートの最初のページのアノテーションを適用のオプションを使用すると手間が削減できそうですね。

最後に

PDFからテキスト抽出ツールについてご紹介しました。

参考