生成AIの出力に対する評価・検証・修正の流れ

この記事では、生成AIの出力に対する評価・検証・修正の流れについてまとめます。

2025.11.12

こんにちは。組織開発室に所属し、組織開発を担当しているてぃーびーです。
生成AIを日常的に活用していて、つい結果が正しいことを前提に使っていることがあるかもしれません。

一方で、生成AIはハルシネーション（もっともらしい嘘）を生み出す可能性や、入力に対して出力が常に同じではない非決定性があります。そのため、出力結果の評価が不可欠です。これらを踏まえると、結果の評価が必要になってきます。
この記事では、生成AIの出力に対する評価・検証・修正の流れについてまとめます。
 生成AIの出力の評価評価は、大きく分けて情報源の確認と出力内容の確認の2段階で実行するのが定番です。
 情報源の確認出力の情報源を確認し、妥当性を確認します。


方法論
具体的なアクション
目的とポイント


未引用情報の確認
自分でインターネットで真偽を調べるか、生成AIに情報源の明示を促す。情報源がわかったら次の『インライン引用の確認』と同様の確認をします
情報源の存在を確認すること

インライン引用の確認
NotebookLM や一部の Gemini 機能で表示される出典リンクやインライン引用をクリックし、AIが回答の根拠とした元の資料の該当箇所を直接読む
ハルシネーションや誤解釈を防ぐ。AIが参照した文脈が適切かを確認する

ソース情報の信頼性評価
AIに参照させた元の資料やデータの品質（古さ、バイアス、正確性）を評価する
質の低いソースからは質の低い結果しか得られない（Garbage In, Garbage Out）ことを念頭に置く

情報の日付確認
AIが参照した情報の作成日を確認し、その情報が最新のものか、または古い情報を参照しているかを判断する
Geminiのような汎用AIの場合、特定の情報の知識カットオフ（学習データの期限）を意識する。

Garbage In, Garbage Out : 質の低い情報からは質の低い出力しか得られないということを表す常套句
知識カットオフ : AIが学習した最新データの最終更新日を指し、その日以降の情報には対応できないという概念
 出力内容の確認AIが出した回答や生成物が、正確性・目的適合性を満たしているかを評価します。
 信頼性の評価

方法論
具体的なアクション
目的とポイント


クロスチェック
AIの出力内容について、別の信頼できる情報源を用いて事実を照合する
ファクトチェックの基本。複数の独立したソースで同じ情報が得られるかを確認する

論理的整合性の確認
生成された文章や論理の流れに矛盾がないか、因果関係が正しいかを精査する。特に、長い要約や推論を含む回答で重要
「AだからB」という推論が飛躍していないか、裏付けがあるかを確認する

プロンプトの再確認
AIの出力が、入力したプロンプトの指示（制約条件、フォーマット、文体など）をすべて満たしているかをチェックリストのように確認する
AIは指示を一部見落とすことがあるため、指示漏れを防ぐ

 目的適合性の評価

方法論
具体的なアクション
目的とポイント


ターゲット評価
生成物が「誰のために作られたか」という目的に対して、適切な専門性やトーンになっているかを判断する
社内向け報告書なのに専門用語だらけではないか、顧客向けメールなのに事務的すぎないかなどをチェック

タスクの達成度評価
AIの出力が、当初の業務上のゴールやタスクの要件をどれだけ満たしているかを評価する
AIが出したから終わりではなく、この結果をどう業務に活かすかという視点が重要

 評価後の問題発見方法や修正方法評価の結果、出力内容に問題が見つかった場合、それを業務に活かすためには問題の特定と適切な修正が必要です。ここでは、AIの出力の検証と修正を行うための具体的な方法を解説します。
 思考の連鎖で問題を特定するAIにいきなり結論を出させるのではなく、「まず〇〇を分析し、次にその結果から△△を導き出しなさい」といった段階的な思考プロセスを指示する。いわゆる思考の連鎖プロンプトです。
これにより、AIの回答の論理が明確になり、検証が容易になります。
思考の連鎖プロンプトについては、以下の記事で紹介しています。
AI壁打ちシリーズ : 思考の流れを推測する | DevelopersIO
 批判的な再プロンプトAIの出力のどこが問題かを指摘し、どう修正すべきかいう具体的な指示を加えて再生成させる手法です。
例: この要約は長すぎます。特に第3段落は不要なので削除し、結論部分を太字にして再提出してください
これは、出力結果に対して修正を入れるパターンですが、最初のプロンプト自体を修正して再実行する場合もあるでしょう。

特に、 Gemini の Gem や ChatGPT のマイGPTの作成者の場合、場当たり的な修正指示ではなく、設定しているプロンプト自体を修正する必要があります。
 ロールプレイの活用AIに「あなたはベテランの編集者です」や「あなたは厳しい教授です」といった役割を与え、AI自身に生成したアウトプットを批判的に評価させます。これにより、人間の視点では見落としがちな客観的な問題点をAIが見つけやすくなります。
 評価〜修正の例実際に誤回答が発生した際の修正までの流れを紹介します。
 誤回答が発生入力
てぃーびーさんの個人ブログである Tbpgr Blog の最新記事を教えてください
出力
Tbpgrさんの個人ブログ、「Tbpgr Blog」の最新記事は、2025年10月10日公開の**『Gemini と NotebookLM を組み合わせて 目標設定の負荷を軽減する方法』**に関する登壇報告の記事のようです。

* **最新記事のタイトル**: 『Gemini と NotebookLM を組み合わせて 目標設定の負荷を軽減する方法』というお題で登壇しました
* **公開日**: 2025-10-10

---

このブログの他の記事について知りたいことや、特定のトピックに関する記事があるかなど、何か他に知りたいことはありますか？
※最新情報に関わる質問は誤回答が出やすいのでこの質問にしました
 評価情報源を確認します。この場合、結果に対してURLが未引用なので、 Tbpgr Blog を確認しにいきます。
https://tbpgr.hatenablog.com/
このブログの執筆時点(2025/11/12)において最新記事は 2025年11月11日公開の 『生成AI駆動業務改善入門 ZennBook を公開しました #生成AI駆動業務改善 』なので、これは誤った情報になります。
入力
確認したところ、最新の記事は2025/11/11なのですが、記事タイトルを教えてもらえますか？
一旦、その場の対応としては指摘したら正しい回答をくれました。
出力
ご指摘ありがとうございます。お調べしたところ、2025年11月11日に公開された記事が確認できました。

最新記事のタイトルは**『生成AI駆動業務改善入門 ZennBook を公開しました #生成AI駆動業務改善 - Tbpgr Blog』**です。

これは、てぃーびーさんが公開されたZennBookに関する記事のようです。
 問題の特定思考の連鎖プロンプトで発生原因を特定します。
入力
最初の結果で古い記事を回答いただいた背景をステップバイステップで教えてください
出力
お伝えした最初の情報が最新ではなかった背景について、ステップバイステップでご説明します。

---

### 🔎 古い記事を回答したステップ

1.  **検索クエリの実行:**
    * 私は、ユーザー様からのリクエストに応えるため、インターネット検索ツールに対して「Tbpgr Blog 最新記事」というクエリを実行しました。
2.  **検索結果の取得:**
    * 検索エンジンは、Tbpgr Blogのトップページ（または最新情報を含むページ）をクロールした際に認識していた**最新のスニペット**を返しました。
    * そのスニペットには、**2025年10月10日公開**の「『Gemini と NotebookLM を組み合わせて 目標設定の負荷を軽減する方法』というお題で登壇しました」という記事の情報が含まれていました。
3.  **情報の提示:**
    * 私は、取得した検索結果の情報に基づいて、「2025年10月10日公開の『Gemini と NotebookLM を組み合わせて 目標設定の負荷を軽減する方法』に関する登壇報告の記事」を最新記事として回答しました。

### 💡 なぜ古い情報になったか

* 検索エンジンは、ウェブサイトを巡回（クロール）して情報を取得し、データベース（インデックス）を更新していますが、ブログが**2025年11月11日**に最新記事を公開してから、私が検索を実行した時点までに、検索エンジンのインデックスが**まだ新しい情報に完全に更新されていなかった**ことが原因と考えられます。
* このため、私の検索ツールには、その時点では「2025年10月10日」の記事が最新のスニペットとして提供されました。

---

ユーザー様からご指摘いただいた後、再度検索を行ったことで、無事に最新の「『生成AI駆動業務改善入門 ZennBook を公開しました』」という記事の情報を取得し、正確な情報をお届けすることができました。

今回の経緯について、他にご質問はございますか？
 プロンプトを修正して再実行します内容的に、トップページを元に情報を判断してもらえばいいかなと思い以下の指示にしてみました。
入力
https://tbpgr.hatenablog.com/ にアクセスし、最新記事のタイトルと公開日を教えてください
出力
ウェブサイト [Tbpgr Blog](https://tbpgr.hatenablog.com/) の最新記事のタイトルと公開日は以下の通りです。

* **タイトル**: 2025年11月時点の Gemini の改行の挙動を確認する
* **公開日**: 2025-11-08
新しくはありますが、最新にはなりませんでした。ちなみに、今までもネットの公開情報の最新データ関連で回答がブレることはよくありました。そのため、比較的新し目の情報を根拠にしたい場合、結果が安定しないのだろうと思います。
内部的には、生成AIのモデルのカットオフ日以降のデータはリアルタイム検索される仕様と考えられますが、実際の動作では取得するデータの時点がばらつく傾向が観察されています。
ということで、今回は解決するというよりは、最新情報については結果が不安定なのでそれを踏まえて利用するという判断軸を得る形になります。
 関連情報Gemini モデル  |  Gemini API  |  Google AI for Developers
カットオフ日が確認できます

生成AIの出力に対する評価・検証・修正の流れ

生成AIの出力の評価

情報源の確認

出力内容の確認

信頼性の評価

目的適合性の評価

評価後の問題発見方法や修正方法

思考の連鎖で問題を特定する

批判的な再プロンプト

ロールプレイの活用

評価〜修正の例

誤回答が発生

評価

問題の特定

プロンプトを修正して再実行します

関連情報

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS

方法論	具体的なアクション	目的とポイント
未引用情報の確認	自分でインターネットで真偽を調べるか、生成AIに情報源の明示を促す。情報源がわかったら次の『インライン引用の確認』と同様の確認をします	情報源の存在を確認すること
インライン引用の確認	NotebookLM や一部の Gemini 機能で表示される出典リンクやインライン引用をクリックし、AIが回答の根拠とした元の資料の該当箇所を直接読む	ハルシネーションや誤解釈を防ぐ。AIが参照した文脈が適切かを確認する
ソース情報の信頼性評価	AIに参照させた元の資料やデータの品質（古さ、バイアス、正確性）を評価する	質の低いソースからは質の低い結果しか得られない（Garbage In, Garbage Out）ことを念頭に置く
情報の日付確認	AIが参照した情報の作成日を確認し、その情報が最新のものか、または古い情報を参照しているかを判断する	Geminiのような汎用AIの場合、特定の情報の知識カットオフ（学習データの期限）を意識する。

方法論	具体的なアクション	目的とポイント
クロスチェック	AIの出力内容について、別の信頼できる情報源を用いて事実を照合する	ファクトチェックの基本。複数の独立したソースで同じ情報が得られるかを確認する
論理的整合性の確認	生成された文章や論理の流れに矛盾がないか、因果関係が正しいかを精査する。特に、長い要約や推論を含む回答で重要	「AだからB」という推論が飛躍していないか、裏付けがあるかを確認する
プロンプトの再確認	AIの出力が、入力したプロンプトの指示（制約条件、フォーマット、文体など）をすべて満たしているかをチェックリストのように確認する	AIは指示を一部見落とすことがあるため、指示漏れを防ぐ

方法論	具体的なアクション	目的とポイント
ターゲット評価	生成物が「誰のために作られたか」という目的に対して、適切な専門性やトーンになっているかを判断する	社内向け報告書なのに専門用語だらけではないか、顧客向けメールなのに事務的すぎないかなどをチェック
タスクの達成度評価	AIの出力が、当初の業務上のゴールやタスクの要件をどれだけ満たしているかを評価する	AIが出したから終わりではなく、この結果をどう業務に活かすかという視点が重要