PDFの手順書を取り込んでNotionQAで調べる #Notion
NotionQAで色々試すアドベントカレンダー15日目です。
紙の手順書をスキャンで取り込みしたものの、PDFで提供されているケースにノータッチでした。PDFから出力したテキストを使ってNotionQAに掛けてみました。
今回利用したのはプレイステーション・ポータブルの取り扱い説明書となります。
PDFからテキストを出力する
PDFが1ページ程度であれば範囲選択後のコピペでも賄えそうですが、流石に数十ページ等になると辛いものがあります。
今回はPopplerのpdftotextを利用します。
brew install poppler exec $SHELL -l
PDFからテキストに起こします。
pdftotext source.pdf output.txt
NotionAIで整形する
取り込んだ後は一定の文字数でブロックを分けて、各ブロックに対してAIによる修正を実行しましょう。
AI修正前 | AI修正後 |
紙面都合で入っていた改行等が取り除かれ、読める文章になります。なお、やや表現の加工が入ることもありますが、原文を大きく損なわない範囲であればそのままにしておきます。
QAに問い合わせる
整形を途中まで行った状態ですがQAしてみました。詳細なテキストは割愛されてしまいましたが、返答できています。
あとがき
PDFからテキストを起こした後の一番手間がかかる整形工程は、NotionAIがいい塩梅でこなしてくれます。ただし、1ブロック内のテキスト量が処理容量を超過していると処理が途中で止まります。適度に分割しましょう。