Pythonでpdfを画像として認識しテキストを抽出を試してみる(pyocr)

森亮介

2021.12.09

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

pdfのデータからepubを作成することを調べていて、

前回、Pythonを使ってPDFファイルからテキストを抽出する方法を試しました。

PDFファイルによっては抽出できないものもありましたので、今回はPDFとしてではなく、画像として認識し文字を抽出できるかどうか試していきたいと思います。

環境はMacOSを使用します。

準備

PyOCRのインストール

PyOCRは、Python用の光学式文字認識（OCR）ツールのラッパーです。

pip install pyocr

Tesseractのインストール

OCR engineであるTesseractをインストールします。

brew install tesseract

pdf2imageのインストール

PDFを画像ファイルに変換してくれるライブラリ　pdf2imageをインストールします。

pip install pdf2image

Macの場合、poppler もインストールする必要がありました。

※ popplerはPDFレンダリングライブラリ

ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" 2> /dev/null
brew install poppler

実行してみる

実験用コード

from PIL import Image
import sys
import pyocr
import pyocr.builders
import pdf2image

tools = pyocr.get_available_tools()
if len(tools) == 0:
    print("No OCR tool found")
    sys.exit(1)

# The tools are returned in the recommended order of usage
tool = tools[0]
print("Will use tool '%s'" % (tool.get_name()))
# Ex: Will use tool 'libtesseract'


# pdfから画像オブジェクトに
images = pdf2image.convert_from_path("2019-11-Chaos_Engineering_Whitepaper.pdf", dpi=200, fmt='jpg')
lang = 'eng'
#lang = 'jpn'
# 画像オブジェクトからテキストに
for image in images:
    txt = tool.image_to_string(
        image,
        lang=lang,
        builder=pyocr.builders.TextBuilder()
    )
    print(txt)