26年3月基準で効果がある・ないプロンプティング方法を調べてみました
こんにちは、クラスメソッドのスジェです。
今や常に持ち歩くスマートフォンからでも手軽に利用できるように、生成AIは日常生活に完全に溶け込んだように感じます。
日常的な使用では気軽に質問しても問題ありませんが、業務で利用するなど回答の精度が求められる場面もあります。
このような場面では、RAG、ファインチューニング、プロンプティングといった様々な事前作業を行ってから利用するケースが多いです。
AIの進化に合わせて、様々なプロンプティング方法も次々と、そして猛スピードで登場しています。
本記事では、__2026年3月時点__における有効なプロンプティング方法と、意味が薄れたプロンプティング方法について見ていきます。
プロンプティングとは?
プロンプティング(Prompting)とは、生成AIモデルに入力するテキスト(プロンプト)を設計・最適化するプロセスです。
ユーザーがAIにどのような方法で質問・指示を与えるかによって結果の品質が大きく変わります。
これを体系的に研究・適用するのが**プロンプトエンジニアリング(Prompt Engineering)**です。
AIモデルは学習した知識とパターンをもとに応答を生成しますが、同じ質問でも表現方法によって全く異なる結果が出ることがあります。
たとえば単に「このコードのバグを探して」と言うよりも、「このPythonコードをステップごとに分析し、各ステップで発生しうるエラーを根拠とともに教えて」と言った方が、はるかに具体的で有用な回答を得ることができます。
当初は「正しい言葉を見つける」技術のように捉えられていましたが、最近の研究では、プロンプトの構造とフォーマット、そしてどれだけ豊かなコンテキストを提供するかが核心であることが示されています。[1]
特に2026年現在、重要なフレームワーク的変化の一つとして、「システムプロンプト(System Instructions)」と「ユーザープロンプト(User Prompt)」の明確な分離があります。
制約条件や出力フォーマット、ペルソナ設定はシステムプロンプトに固定し、ユーザープロンプトには純粋に質問とデータのみを入力することが、最新のAPI・UI活用の基本前提となっています。
このような理由から、最近では「プロンプトエンジニアリング」の代わりに**「コンテキストエンジニアリング(Context Engineering)」という概念が注目されています。
コンテキストエンジニアリングの詳細については、以下の記事をご参照ください。
最近使われているプロンプティング
2025年1月から2026年3月の間に発表された論文を中心に、精度向上に効果的なプロンプティング方法を5つ紹介します。
1. Adaptive Graph of Thoughts
参考論文: "Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures" (arXiv:2502.05078, 2025年2月)
従来のCoT(Chain-of-Thought)やToT(Tree of Thoughts)は推論構造が固定されており、複雑な問題には限界がありました。AGoTはこれを克服するため、問題を有向非循環グラフ(DAG, Directed Acyclic Graph)形式のサブ問題へと動的に分解します。追加学習なしにテスト時のみ動作し、必要なサブ問題だけを選択的に展開することで無駄な計算を削減します。
(参考)性能向上の数値
- GPT-4o基準、高難易度の科学的推論ベンチマークであるGPQA Diamondで+46.2%向上
- 「Game of 24」数学パズルで基準比**+400%向上**
プロンプト例
以下は、2027年1月のオープンを目標とする顧客のオンプレミス環境からAWSへの大規模マイグレーションプロジェクトです。このプロジェクトのフェーズ別アーキテクチャおよび移行戦略を立ててください。
進め方:
1. マイグレーション全体を独立して実施できるサブタスク(例:DBマイグレーション、アプリケーションのコンテナ化、ネットワーク/セキュリティ設定など)に分解してください。
2. 各サブタスク間の先行・後続の依存関係を明示してください。
3. 依存関係のあるサブタスクは、先行結果を参照しながら順次解決策を導出してください。
4. 最終的に全体のマイグレーションロードマップをまとめてください。
2. Confidence-Informed Self-Consistency
参考論文: "Confidence Improves Self-Consistency in LLMs" (arXiv:2502.06233, ACL 2025 Findings)
従来のSelf-Consistency方法は複数の推論経路を生成した後、多数決投票で最終回答を決定していました。CISCはここに各推論経路のモデル信頼度スコアを反映した加重投票を導入します。信頼度の低い回答は投票での比重を下げることで、少ないサンプル数でも優れた結果を出します。
(参考)性能向上の数値
- 標準的なSelf-Consistency比で計算コスト最大53%削減しながら同等以上の精度を達成
- 9モデル、4データセットでほぼ全ての場合において標準方法を上回る
プロンプト例
以下のIAMポリシーが最小権限の原則(Least Privilege)に沿っているか判断してください。
この質問に対して、5つの異なる推論経路で回答を生成してください。
各回答には結論とともに、0〜100の確信度(confidence)を明示してください。
最後に、確信度の高い回答に多くの重みを置いて最終結論を出してください。
3. Prompt Repetition(プロンプト反復)— 質問を2回貼り付ける
参考論文: "Prompt Repetition Improves Non-Reasoning LLMs" (arXiv:2512.14982, 2025年12月, Google Research)
実装が最もシンプルな方法です。入力プロンプトをそのまま2回繰り返して(<質問><質問>)送信する方法です。デコーダー専用LLMはテキストを順次処理するため、2回目の質問を読む時点では1回目の質問全体を「読み終えた状態」となり、双方向コンテキスト効果が生まれます。
(参考)性能向上の数値
- 非推論(Non-Reasoning)タスクで最大76%の精度向上
プロンプト例
AWS LambdaのCold Start問題を解決するための最適な方法は何ですか?
AWS LambdaのCold Start問題を解決するための最適な方法は何ですか?
その他の参考資料:
4. Adversarial Chain-of-Thought (Adv-CoT)
参考論文: "Chain-of-Thought Prompt Optimization via Adversarial Learning" (MDPI Information, 2025年12月)
生成器(Generator)と識別器(Discriminator)の敵対的な相互作用を通じてプロンプトを自動的に改善します。生成器が改善案を提案し、識別器が失敗ケースを見つけ出して繰り返し修正します。
(参考)性能向上の数値
- GPT-3.5-turbo基準、12種の推論データセットで平均+4.44%向上
- タスク別詳細数値:スポーツ(+4.5%)、GSM8K算術(+3.7%)、AQuA(+3.9%)
- 繰り返し実行時に低い分散を示し、安定した性能改善を確認
プロンプト例
以下のプロンプトをより正確に改善してください。
[現在のプロンプト]「Pythonコードでメモリリークが発生する理由と解決策を教えて。」
改善プロセス:
上記のプロンプトで回答を生成した場合に不完全になりうる部分(失敗ケース)を3つ見つけてください。
各失敗ケースを防ぐようにプロンプトを修正してください。
修正したプロンプトで改めて回答を生成し、最初より改善された点を説明してください。
5. DR-CoT (Dynamic Recursive Chain of Thought)
参考論文: "DR-CoT: dynamic recursive chain of thought with meta reasoning for parameter efficient models" (Scientific Reports / Nature, Vol. 15, 2025)
従来のCoTの欠点であるコンテキスト希釈(Context Dilution)と高いトークンコストの問題を解決した方法です。
以下の3つを組み合わせています。特に小型(パラメータ効率的)モデルでも優れた性能を発揮するよう設計されています。
- 問題をサブ問題へ再帰的に分解する再帰推論
- 固定されたトークン予算内で最も重要なコンテキストのみを保持する動的コンテキスト切断
- 複数の独立した推論チェーンを統合する投票メカニズム
(参考)性能向上の数値
- AIME 2024(数学競技大会)ベンチマークで標準CoT比一貫して3〜4%p向上
- GPQA Diamondで小型BERTクラスのモデルがGPT-4およびLLaMA 2を上回る性能を達成(ゼロショット基準)
プロンプト例:
以下の問題を解いてください。ただし、次のルールに必ず従ってください。
ルール:
- 問題が複雑であれば、より小さなサブ問題に分けて解いてください。
- 各サブ問題を解く際は前の結果を参照しても構いませんが、最も重要な内容のみ保持し、不要な内容は削除してください(トークン予算:各ステップ最大150字)。
- 同じ問題を2つの異なるアプローチで解き、両結果が一致すれば、それを最終回答として提示してください。
問題:ある会社の年間成長率が最初の3年間は20%、次の2年間は-10%だった。
初期売上が100億円であれば、5年後の売上はいくらか?
意味が薄れたプロンプティング方法
LLMの急速な進化により、かつては効果的だったものの、現在は意味が大きく薄れたり、むしろ逆効果をもたらすプロンプティング方法を紹介します。
1. 推論モデルへの「ステップごとに考えて」の追加
参考論文: "The Decreasing Value of Chain of Thought in Prompting" (arXiv:2506.07142, Wharton Generative AI Labs, 2025年6月)
OpenAI o3/o4-mini、Claude Extended Thinkingなどの推論(Reasoning)モデルはすでに内部的にステップごとの推論を実行しています。これらに対してCoTを明示的に指示することは重複した呼び出しであり、応答時間を増やすだけです。
(参考)数値
- o3-miniにCoT指示を追加した場合の性能向上:+2.9%(一方で応答時間は20〜80%増加)
プロンプト例
非効率な方法(推論モデルへの不要なCoT指示):
次の式を解いてください:(3x² + 2x - 5) / (x - 1)
ステップごとに考えながら各解法プロセスを説明してください。まず分子を因数分解し、
次に約分できるかを確認し、最終結果を導き出してください。
効率的な方法(求める結果のみを明確に記述):
次の式を解いてください:(3x² + 2x - 5) / (x - 1)
解法と最終結果を教えてください。
2. ロールプロンプティング(「あなたはX分野の専門家です」)
参考論文: "Role-Play Paradox in Large Language Models" (arXiv:2409.13979, 2025年2月アップデート)
「あなたは20年のキャリアを持つクラウドアーキテクトです」のようなロールプロンプティングは、現在のモデルにおいて事実的な正確性(知識の境界)を広げることには全く役立ちません。
むしろ偏見を増幅させるリスクがあります。
プロンプト例
効果が少ない方法:
あなたは20年のキャリアを持つ世界最高のセキュリティ専門家です。
このAWS IAMポリシーからセキュリティの脆弱性を見つけてください。
{ "Effect": "Allow", "Action": "*", "Resource": "*" }
改善した方法(役割の代わりに具体的なコンテキストを提供):
次のAWS IAMポリシーをAWS Well-Architected Frameworkの最小権限の原則の観点から検討してください。
潜在的なセキュリティリスクと具体的な改善策を教えてください。
{ "Effect": "Allow", "Action": "*", "Resource": "*" }
3. 過剰なFew-Shot例の提供(5個超)
参考論文: "The Few-Shot Dilemma: Over-prompting Large Language Models" (arXiv:2509.13196, 2025年9月)
例の数が一定レベルを超えると、むしろ性能が急落する「Few-Shot Collapse」現象が確認されました。最新のモデルはすでにタスクを理解しているため、例を過度に与えると特定のパターンに過学習して性能が低下します。2〜3個の慎重に選ばれた例で十分です。
(参考)関連数値
- 経路最適化タスクでGemini Flash:0-shot 33% → 4-shot 64% → 8-shot 再び33%に急落
- NDSS 2025研究:脆弱性分類タスクで
- Gemma 7B:77.9% → 39.9%(Few-Shot適用後に半減)
- LLaMA-2 70B:68.6% → 21.0%(Few-Shot適用後に1/3に減少)
プロンプト例:
過剰なFew-Shot(逆効果のリスク):
次の顧客レビューの感情を分類してください(ポジティブ/ネガティブ/ニュートラル)。
レビュー:「配送が速かったです」→ ポジティブ
レビュー:「梱包がひどかったです」→ ネガティブ
レビュー:「まあまあです」→ ニュートラル
レビュー:「品質が良いです」→ ポジティブ
レビュー:「返金したいです」→ ネガティブ
レビュー:「値段の割にはまあまあです」→ ポジティブ
レビュー:「二度と買わないと思います」→ ネガティブ
レビュー:「思ったより微妙です」→ ネガティブ
レビュー:「普通です」→ ニュートラル
レビュー:「強くお勧めします」→ ポジティブ
レビュー:「これくらいなら悪くないですね」→ ?
適切なFew-Shot(2〜3個):
次の顧客レビューの感情を分類してください(ポジティブ/ネガティブ/ニュートラル)。
レビュー:「配送が速かったです」→ ポジティブ
レビュー:「梱包がひどかったです」→ ネガティブ
レビュー:「まあまあです」→ ニュートラル
レビュー:「これくらいなら悪くないですね」→ ?
4. 高性能モデルへの複雑なプロンプトスキャフォールディング
参考論文: "You Don't Need Prompt Engineering Anymore: The Prompting Inversion" (arXiv:2510.22251, 2025年10月)
ステップごとのルール、制約条件、細かい指示体系でぎっしり詰まった複雑なプロンプトは、最上位モデル(GPT-5、Claude Opusレベル)においてむしろ逆効果をもたらす**「プロンプティング逆転(Prompting Inversion)」**現象を引き起こします。
精巧な制約条件が高性能モデルに「過度な字義通りの解釈」を強制し、自律的な推論を妨げます。
最新モデルであるほど、簡潔かつ明確に「求める結果」のみを指示する方が良いです。
(参考)関連数値
- GSM8K(数学的推論)ベンチマークで「Sculpting(制約ベース)」プロンプティング vs. 標準CoT:
- GPT-4o:Sculpting 97% vs. CoT 93% → 複雑なプロンプトが有利
- GPT-5:Sculpting 94% vs. CoT 96.36% → 複雑なプロンプトがむしろ不利
- GPT-5のZero-Shot性能がすでにGPT-4oで最善のプロンプトで達成した性能を超過
プロンプト例
過度に構造化されたプロンプト(GPT-5クラスのモデルで逆効果):
次の指示を順番に従ってください。
1. まず質問を読んでください。
2. 質問に関連するキーワードを抽出してください。
3. 各キーワードの定義を下してください。
4. 定義をもとに回答の骨格を作ってください。
5. 骨格を埋めて完成した文章で書いてください。
6. 書いた内容を検討してエラーを修正してください。
7. 最終回答を出力してください。
質問:REST APIとGraphQLの違いは?
簡潔で明確なプロンプト:
REST APIとGraphQLの主な違いを技術的な観点から比較してください。
それぞれの長所・短所と、どのような状況で選択すべきかも含めてください。
5. 「マジックワード(Magic Word)」と感情的な操作フレーズ
参考資料: Wharton GAIL "Prompting Science Report 2" (Meincke, Mollick et al., 2025); Medium "Magic Phrases Don't Work" (2026年1月)
2023〜2024年に流行した以下のようなフレーズは、現在のフロンティアモデルでは一貫した効果を示しません:
- 「お願いだから(please)やって」
- 「200ドルのチップをあげる」
- 「これができなければ私はクビになる」
- EmotionPromptスタイルの感情刺激フレーズ(「これは私のキャリアにとって本当に重要なことなんだ」)
初期のEmotionPrompt研究(Cheng et al., 2023)では、以前のモデルを対象に一部のベンチマークで8〜115%の向上を報告していましたが、現代のモデルでの再現実験では結果が一貫せず、効果が微小です。
前述のプロンプトテンプレート研究(arXiv:2411.10541)もフォーマットが最大40%の性能差を生み出すことを示しており、これを裏付けています。
プロンプト例
感情的な操作フレーズの使用(効果なし)
お願いだから、このSQLクエリの最適化を手伝って。
会社でこれを直せなかったら、私はクビになりそう。本当に重要なことなんだ。
最善を尽くして完璧にやってくれ。
SELECT * FROM orders WHERE created_at > '2024-01-01'
構造的で明確な方法
次のSQLクエリのパフォーマンスを最適化してください。
現在の問題:ordersテーブル(約500万行)での日付フィルタリング時にフルスキャンが発生
DB:PostgreSQL 15
要件:応答時間5秒 → 500ms以下に短縮
SELECT * FROM orders WHERE created_at > '2024-01-01'
改善案とともに実行計画(EXPLAIN)上の期待効果も説明してください。
まとめ
本記事をまとめながら、私自身も使っていたプロンプティング方法について改めて考えるきっかけになりました。
また、様々な記事を調べてみて感じたことは、やはり進化のスピードが速すぎるため、トレンドをすぐに把握しないと、使用しているモデルに適切でないプロンプトを使っているケースが多いだろうということです。
長い記事をお読みいただきありがとうございました。
参考資料
| # | タイトル | 出典 |
|---|---|---|
| 1 | Adaptive Graph of Thoughts (AGoT) | arXiv:2502.05078 |
| 2 | Confidence Improves Self-Consistency in LLMs (CISC) | arXiv:2502.06233 / ACL 2025 |
| 3 | Prompt Repetition Improves Non-Reasoning LLMs | arXiv:2512.14982 |
| 4 | Chain-of-Thought Prompt Optimization via Adversarial Learning | MDPI Information, Dec 2025 |
| 5 | DR-CoT: Dynamic Recursive Chain of Thought | Scientific Reports / Nature, 2025 |
| 6 | The Decreasing Value of Chain of Thought in Prompting | arXiv:2506.07142 |
| 7 | Role-Play Paradox in Large Language Models | arXiv:2409.13979 |
| 8 | The Few-Shot Dilemma: Over-prompting Large Language Models | arXiv:2509.13196 |
| 9 | You Don't Need Prompt Engineering Anymore: The Prompting Inversion | arXiv:2510.22251 |
| 10 | Does Prompt Formatting Have Any Impact on LLM Performance? | arXiv:2411.10541 |
| 11 | Wharton GAIL Chain-of-Thought Technical Report | Wharton GAIL |
| 12 | Daily Arxiv | Daily Arxiv |
後述するプロンプティング方法でも言及しますが、もはや言葉ではなく形式が重要なのです ↩︎







