PDFの手順書を取り込んでNotionQAで調べる #Notion

NotionQAで色々試すアドベントカレンダー15日目です。紙の手順書は取り込んだものの、PDFで配布されているパターンはどうだろうかと試してみました。
2023.12.15

NotionQAで色々試すアドベントカレンダー15日目です。

紙の手順書をスキャンで取り込みしたものの、PDFで提供されているケースにノータッチでした。PDFから出力したテキストを使ってNotionQAに掛けてみました。

今回利用したのはプレイステーション・ポータブルの取り扱い説明書となります。

PDFからテキストを出力する

PDFが1ページ程度であれば範囲選択後のコピペでも賄えそうですが、流石に数十ページ等になると辛いものがあります。

今回はPopplerのpdftotextを利用します。

brew install poppler
exec $SHELL -l

PDFからテキストに起こします。

pdftotext source.pdf output.txt

NotionAIで整形する

取り込んだ後は一定の文字数でブロックを分けて、各ブロックに対してAIによる修正を実行しましょう。

AI修正前

AI修正後

紙面都合で入っていた改行等が取り除かれ、読める文章になります。なお、やや表現の加工が入ることもありますが、原文を大きく損なわない範囲であればそのままにしておきます。

QAに問い合わせる

整形を途中まで行った状態ですがQAしてみました。詳細なテキストは割愛されてしまいましたが、返答できています。

あとがき

PDFからテキストを起こした後の一番手間がかかる整形工程は、NotionAIがいい塩梅でこなしてくれます。ただし、1ブロック内のテキスト量が処理容量を超過していると処理が途中で止まります。適度に分割しましょう。