NotionQA補足情報としてWikipediaをスクラップ #Notion
NotionQAで色々試すアドベントカレンダー12日目です。
NotionQAでの質問で精度を求める場合は裏付けのある情報のストックが必要となります。ただ、なかなかストックし辛いのも確かです。GitHubから有志の方による蓄積を取り込む手もありますが、全てをカバーできるわけではありません。
精度は項目次第ですが、暫定的にWikipediaのページをスクラップしておくのも一つの手です。
WikipediaをNotionにストックする
個人的にはNotion Web Clipperを利用しています。認証が求められないページでは問題なく取得できます。
注意すべきはページ内テキスト量が多い項目です。実行後に作成されたページは空のままになりますが、バックプロセスにて取得処理が継続されています。慌てず暫く待ちましょう。
不定期更新の取り込み
紙と違い、Web上のスペースから取り込んだ場合にネックとなる部分です。
Wikipediaの場合は更新履歴をAtomで取得できるため、RSSリーダ等で更新通知を受け取り、取得しなおすとよいでしょう。基本的に差分反映での更新は難しいため、更新後のページを取得した後に前回のページを削除するか、一定期間毎に更新が入ってなくても取り直すという手順がベターでしょう。
QAしてみる
以下のようなやり取りになりました。
上手くQAで取れないときは、Wikipediaから取り込んだ文章を自然な形になるようにAIで改善しておきましょう。
あとがき
QAの回答は質問が大雑把になると逆に絞れなくなるようです。たとえば「◯◯とは」など。Wikipediaの記述には具体的な日付が含まれていることも多いため、詳細な質問にすることでQAの回答に反映しやすくなります。
Wikipediaには要文献となっている項目も多くあります。取得した際に一度通して確認し、取捨選択しておくとよいでしょう。