
NotebookLMがソースとして扱う頻度の低いドキュメントをGeminiで校正しAI解答精度を上げる
NotebookLMのソースとしてNotionからエクスポートしたFAQ用文書を取り込むことがあります。多くの場合はNotebookLMによって回答用ソースとして選択されますが、選択されないケースも存在します。
選択されないケースの主な原因として、以下の3つが考えられます。
- 質問と回答の組み合わせに論理的な関連性がない
- エクスポートした際のフォーマットの問題により、日本語の文章として適切な形式になっていない
- 記号やマークアップが多すぎるため、文章としての解釈ができていない
これらの問題は、NotebookLMにソースを取り込んだ後、各ソースを選択して表示されるテキストを確認することで発見できるでしょう。
では、これらの問題をどのように修正すべきでしょうか。NotionAIは各段落の個別校正には優れています。が、今回のケースでは全段落を通した文意を保ちながらのリライトも勿論、再エクスポート後の品質担保も必要となります。そこで、校正後の出力の優位性を考慮し、Geminiを使用することにしました。
Geminiによる校正
Geminiでは条件に応じた校正が可能で、校正後の文書をGoogle DocsとしてGoogle Driveに保存できます。また、保存したファイルはNotebookLMから直接参照することが可能です。
校正手順としては、まず対象のファイルを添付し、今回は質問と回答の組み合わせを抽出するように指示を出します。
Geminiによる抽出結果に問題がなければ、共有機能を使ってGoogle Docとしてエクスポートします。
生成AIとNotebookLMにおけるデータ解釈の違い
基本的に人間が理解できるフォーマットであれば、大体の生成AIは同様に問題なく解釈できるでしょう。ただし、NotebookLMはこのような柔軟な解釈ができません。
PDFが2カラム表形式で、左側に質問、右側に回答が配置されている場合、NotebookLMはこれを質問が全て連続した後に回答が全て連続するデータとして誤って解釈してしまい、FAQデータとして認識できません。
Markdownファイルで記号が多用されている場合、たとえ質問と回答が交互に配置されていても、NotebookLMはそれらを独立した文章として捉えてしまい、質問のソースとして適切に認識できないことがあります。
したがって、NotionからエクスポートしたデータをNotebookLMで扱う場合、文書構成次第で何らかの生成AIを使った抽出が推奨されます。
今回はGeminiを利用しましたが、Geminiでのエクスポートは常に新規ファイルとして生成されます。NotebookLMへの取り込みも兼ねる場合は、GAS経由でGeminiエクスポートファイルの内容を取得し、NotebookLMソース用ファイルに上書き出力する方法が効果的です。
あとがき
NotebookLMは質問を返す際にAI処理を行いますが、NotebookLMのソース取り込み時にはAIによる文章の校正機能が組み込まれていないようです。取り込んだソースデータをAIが解答向けリソースとしては適切でないと判断される可能性もあることを覚えておきましょう。