26년 3월 기준, 알아두면 좋은 AI 프롬프팅 기법

생성형 AI를 위한 프롬프팅 방식에 대해 기술한 글입니다.

2026.03.03

안녕하세요 클래스메소드의 이수재입니다.

지금은 항상 들고다니는 스마트폰에서도 쉽게 사용할 수 있듯이 생성형 AI가 일상 생활에 완전히 스며든 것 같습니다.
일상에서 사용할 때는 편하게 질문해도 문제가 없지만 업무에서 사용하는 등 답변의 정확도가 높아야하는 경우가 있습니다.
이런 상황에서는 RAG, 파인튜닝, 프롬프팅 등 다양한 사전 작업을 하고 사용하는 경우가 많습니다.

AI의 발전에 맞춰 다양한 프롬프팅 기법도 엄청 많이 그리고 빨리 나오고 있습니다.
이번 글에서는 26년 3월 기준 으로 의미있는 프롬프팅 기법과 의미가 희석된 프롬프팅 기법에 대해 알아보도록 하겠습니다.

프롬프팅이란?

프롬프팅(Prompting)이란 생성형 AI 모델에 입력하는 텍스트(프롬프트)를 설계하고 최적화하는 과정입니다. 사용자가 AI에게 어떤 방식으로 질문하거나 지시를 내리느냐에 따라 결과물의 품질이 크게 달라지는데, 이를 체계적으로 연구하고 적용하는 것이 바로 프롬프트 엔지니어링(Prompt Engineering) 입니다.

AI 모델은 학습된 지식과 패턴을 바탕으로 응답을 생성하지만, 동일한 질문이라도 표현 방식에 따라 전혀 다른 결과를 낼 수 있습니다.
예를 들어 단순히 "이 코드의 버그를 찾아줘"라고 하는 것보다, "이 Python 코드를 단계별로 분석하고, 각 단계에서 발생할 수 있는 오류를 근거와 함께 알려줘"라고 하면 훨씬 더 구체적이고 유용한 답변을 얻을 수 있습니다.

초기에는 "올바른 단어를 찾는" 기술처럼 여겨졌지만, 최근 연구들은 프롬프트의 구조와 형식, 그리고 얼마나 풍부한 맥락(Context)을 제공하느냐가 핵심임을 보여주고 있습니다. ^[1]

특히 2026년 현재 중요한 프레임워크적 변화 중 하나는 '시스템 프롬프트(System Instructions)'와 '사용자 프롬프트(User Prompt)'의 명확한 분리입니다. 제약 조건이나 출력 형식, 페르소나 설정은 시스템 프롬프트에 고정하고, 사용자 프롬프트에는 순수하게 질문과 데이터만 입력하는 것이 최신 API 및 UI 활용의 기본 전제가 되었습니다. 이런 이유로 최근에는 "프롬프트 엔지니어링" 대신 "컨텍스트 엔지니어링(Context Engineering)" 이라는 개념이 주목받고 있습니다.

컨텍스트 엔지니어링에 대한 상세한 내용은 아래 글을 참고해주세요.
https://news.hada.io/topic?id=21752

최근 사용되는 프롬프팅 기법

25년 1월부터 26년 3월 사이에 발표된 논문을 중심으로 정확도 향상에 효과적인 프롬프팅 기법 5가지를 소개합니다.

1. Adaptive Graph of Thoughts

참고 논문: "Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures" (arXiv:2502.05078, 2025년 2월)

기존의 CoT(Chain-of-Thought), ToT(Tree of Thoughts) 방식은 추론 구조가 고정되어 있어 복잡한 문제에는 한계가 있었습니다. AGoT는 이를 극복하기 위해 문제를 방향성 비순환 그래프(DAG, Directed Acyclic Graph) 형태의 하위 문제로 동적으로 분해합니다. 추가 학습 없이 테스트 시점에만 작동하며, 꼭 필요한 하위 문제만 선택적으로 확장하여 불필요한 연산을 줄입니다.

(참고용)성능 향상 수치

GPT-4o 기준, 고난이도 과학 추론 벤치마크인 GPQA Diamond에서 +46.2% 향상
"Game of 24" 수학 퍼즐에서 기준 대비 +400% 향상

프롬프트 예시

다음은 2027년 1월 오픈을 목표로 하는 고객사의 대규모 온프레미스 환경에서 AWS로의 마이그레이션 프로젝트입니다. 이 프로젝트의 단계별 아키텍처 및 이관 전략을 세워주세요.

풀이 방식:

1. 전체 마이그레이션 과정을 독립적으로 수행할 수 있는 하위 태스크(예: DB 마이그레이션, 애플리케이션 컨테이너화, 네트워크/보안 설정 등)로 분해해줘.

2. 각 하위 태스크 간의 선후행 의존 관계를 명시해줘.

3. 의존 관계가 있는 하위 태스크는 선행 결과를 참조하여 순차적으로 해결 방안을 도출해줘.

4. 최종적으로 전체 마이그레이션 로드맵을 종합해줘.

이 외의 참고 자료:

2. Confidence-Informed Self-Consistency

참고 논문: "Confidence Improves Self-Consistency in LLMs" (arXiv:2502.06233, ACL 2025 Findings)

기존 Self-Consistency 기법은 여러 추론 경로를 생성한 뒤 다수결 투표로 최종 답을 결정했습니다. CISC는 여기에 각 추론 경로의 모델 신뢰도 점수를 반영한 가중 투표를 도입합니다. 신뢰도가 낮은 답변은 투표에서 낮은 비중을 갖도록 하여, 적은 샘플 수로도 더 좋은 결과를 냅니다.

(참고용)성능 향상 수치

표준 Self-Consistency 대비 연산 비용 최대 53% 절감하면서 동등하거나 더 높은 정확도 달성
9개 모델, 4개 데이터셋에서 거의 모든 경우에 표준 방식을 능가

프롬프트 예시

다음 IAM 정책이 최소 권한 원칙(Least Privilege)에 부합하는지 판단해줘.

이 질문에 대해 5가지 서로 다른 추론 경로로 답변을 생성해줘.
각 답변마다 결론과 함께 0~100 사이의 확신도(confidence)를 명시해줘.
마지막으로 확신도가 높은 답변에 더 많은 가중치를 두어 최종 결론을 내려줘.

3. Prompt Repetition (프롬프트 반복) — 질문 두 번 붙여넣기

참고 논문: "Prompt Repetition Improves Non-Reasoning LLMs" (arXiv:2512.14982, 2025년 12월, Google Research)

구현이 가장 단순한 기법입니다. 입력 프롬프트를 그대로 두 번 반복(<질문><질문>)하여 전달하는 방법입니다. 디코더 전용 LLM은 텍스트를 순차 처리하므로, 두 번째 질문을 읽을 때는 첫 번째 질문 전체를 "읽은 상태"가 되어 양방향 컨텍스트 효과를 냅니다.

(참고용)성능 향상 수치

비추론(Non-Reasoning) 태스크에서 최대 76% 정확도 향상

프롬프트 예시

AWS Lambda의 Cold Start 문제를 해결하기 위한 최적의 방안은 무엇인가요?
AWS Lambda의 Cold Start 문제를 해결하기 위한 최적의 방안은 무엇인가요?

이 외의 참고자료 :

https://news.hada.io/topic?id=26960

4. Adversarial Chain-of-Thought (Adv-CoT)

참고 논문: "Chain-of-Thought Prompt Optimization via Adversarial Learning" (MDPI Information, 2025년 12월)

생성기(Generator)와 판별기(Discriminator)의 적대적 상호작용을 통해 프롬프트를 자동으로 개선합니다. 생성기가 개선안을 제안하면, 판별기가 실패 사례를 찾아내고 반복적으로 수정합니다.

(참고용)성능 향상 수치

GPT-3.5-turbo 기준, 12개 추론 데이터셋에서 평균 +4.44% 향상
태스크별 세부 수치: 스포츠 (+4.5%), GSM8K 산술 (+3.7%), AQuA (+3.9%)
반복 실행 시 낮은 분산을 보여 안정적인 성능 개선 확인

프롬프트 예시

아래 프롬프트를 더 정확하게 개선해줘.
[현재 프롬프트] "Python 코드에서 메모리 누수가 발생하는 이유와 해결책을 알려줘."

개선 과정:

위 프롬프트로 답변을 생성했을 때 불완전할 가능성이 있는 부분(실패 사례)을 3가지 찾아줘.

각 실패 사례를 방지하도록 프롬프트를 수정해줘.

수정된 프롬프트로 다시 답변을 생성하고, 처음보다 개선된 부분을 설명해줘.

5. DR-CoT (Dynamic Recursive Chain of Thought)

참고 논문: "DR-CoT: dynamic recursive chain of thought with meta reasoning for parameter efficient models" (Scientific Reports / Nature, Vol. 15, 2025)

기존 CoT의 단점인 컨텍스트 희석(Context Dilution) 과 높은 토큰 비용 문제를 해결한 기법입니다.

아래의 세 가지를 결합합니다. 특히 소형(파라미터 효율적) 모델에서도 뛰어난 성능을 발휘하도록 설계되었습니다.

문제를 하위 문제로 재귀적으로 분해하는 재귀 추론
고정된 토큰 예산 내에서 가장 중요한 컨텍스트만 유지하는 동적 컨텍스트 절단
여러 독립 추론 체인을 종합하는 투표 메커니즘

(참고용)성능 향상 수치

AIME 2024(수학 경시대회) 벤치마크에서 표준 CoT 대비 일관적으로 3~4%p 향상
GPQA Diamond에서 소형 BERT급 모델이 GPT-4 및 LLaMA 2를 능가하는 성능 달성 (제로샷 기준)

프롬프트 예시:

아래 문제를 풀어줘. 단, 다음 규칙을 반드시 따라줘.

규칙:
- 문제가 복잡하다면 더 작은 하위 문제로 나눠서 풀어줘.
- 각 하위 문제를 풀 때는 이전 결과를 참조해도 되지만, 가장 핵심적인 내용만 유지하고 불필요한 내용은 버려줘 (토큰 예산: 각 단계 최대 150자).
- 같은 문제에 대해 서로 다른 접근법 2가지로 풀고, 두 결과가 일치하면 그것을 최종 답으로 제시해줘.

문제: 어떤 회사의 연간 성장률이 처음 3년은 20%, 다음 2년은 -10%였다.
초기 매출이 100억 원이라면, 5년 후 매출은 얼마인가?

사용되지 않는 프롬프팅 기법

LLM의 급속한 발전으로 인해 과거에는 효과적이었지만, 현재는 의미가 크게 줄거나 오히려 역효과를 낳는 프롬프팅 기법들입니다.

1. 추론 모델에 "단계별로 생각해줘" 추가

참고 논문: "The Decreasing Value of Chain of Thought in Prompting" (arXiv:2506.07142, Wharton Generative AI Labs, 2025년 6월)

OpenAI o3/o4-mini, Claude Extended Thinking 등 추론(Reasoning) 모델 들은 이미 내부적으로 단계별 추론을 수행합니다. 이들에게 CoT를 명시적으로 지시하는 것은 중복 호출이며 응답 시간만 늘립니다.

(참고용) 수치

o3-mini에 CoT 지시 추가 시 성능 향상: +2.9% (반면 응답 시간은 20~80% 증가)

프롬프트 예시
비효율적인 방식 (추론 모델에 불필요한 CoT 지시):

이 수식을 풀어줘: (3x² + 2x - 5) / (x - 1)

단계별로 생각하면서 각 풀이 과정을 설명해줘. 먼저 분자를 인수분해하고,
그 다음 약분 가능한지 확인하고, 최종 결과를 도출해줘.

효율적인 방식 (원하는 결과만 명확하게 기술):

이 수식을 풀어줘: (3x² + 2x - 5) / (x - 1)
풀이 과정과 최종 결과를 알려줘.

2. 롤 프롬프팅 ("당신은 X 분야의 전문가입니다")

참고 논문: "Role-Play Paradox in Large Language Models" (arXiv:2409.13979, 2025년 2월 업데이트)

"당신은 20년 경력의 클라우드 아키텍트입니다"와 같은 롤 프롬프팅은 현재의 모델에서 사실적 정확도(지식의 경계)를 넓히는 데는 전혀 도움이 되지 않습니다.
오히려 편향을 증폭시킬 위험이 있습니다.

프롬프트 예시
효과가 적은 방식:

당신은 20년 경력의 세계 최고 보안 전문가입니다.
이 AWS IAM 정책에서 보안 취약점을 찾아줘.

{ "Effect": "Allow", "Action": "*", "Resource": "*" }

개선한 방식 (역할 대신 구체적인 맥락 제공):

다음 AWS IAM 정책을 AWS Well-Architected Framework의 최소 권한 원칙 관점에서 검토해줘.
잠재적인 보안 위험과 구체적인 개선 방안을 알려줘.

{ "Effect": "Allow", "Action": "*", "Resource": "*" }

3. 과도한 Few-Shot 예시 제공 (5개 초과)

참고 논문: "The Few-Shot Dilemma: Over-prompting Large Language Models" (arXiv:2509.13196, 2025년 9월)

예시의 수가 일정 수준을 넘으면 오히려 성능이 급락하는 "Few-Shot Collapse" 현상이 확인되었습니다. 최신 모델들은 이미 태스크를 이해하고 있으므로, 예시를 과도하게 주면 특정 패턴에 과적합되어 성능이 떨어집니다. 2~3개의 신중하게 선택된 예시면 충분합니다.

(참고용)관련 수치

경로 최적화 태스크에서 Gemini Flash: 0-shot 33% → 4-shot 64% → 8-shot 다시 33%로 급락
NDSS 2025 연구: 취약점 분류 태스크에서
- Gemma 7B: 77.9% → 39.9% (Few-Shot 적용 후 절반 수준으로 하락)
- LLaMA-2 70B: 68.6% → 21.0% (Few-Shot 적용 후 1/3 수준으로 하락)

프롬프트 예시:

과도한 Few-Shot (역효과 위험):

다음 고객 리뷰의 감정을 분류해줘 (긍정/부정/중립).

리뷰: "배송이 빨랐어요" → 긍정
리뷰: "포장이 엉망이었어요" → 부정
리뷰: "그냥 그래요" → 중립
리뷰: "품질이 좋아요" → 긍정
리뷰: "환불하고 싶어요" → 부정
리뷰: "가격 대비 괜찮네요" → 긍정
리뷰: "다시는 안 살 것 같아요" → 부정
리뷰: "생각보다 별로예요" → 부정
리뷰: "보통이에요" → 중립
리뷰: "강력 추천합니다" → 긍정

리뷰: "이 정도면 나쁘지 않네요" → ?

적절한 Few-Shot (2~3개):

다음 고객 리뷰의 감정을 분류해줘 (긍정/부정/중립).

리뷰: "배송이 빨랐어요" → 긍정
리뷰: "포장이 엉망이었어요" → 부정
리뷰: "그냥 그래요" → 중립

리뷰: "이 정도면 나쁘지 않네요" → ?

4. 고성능 모델에 대한 복잡한 프롬프트 스캐폴딩

참고 논문: "You Don't Need Prompt Engineering Anymore: The Prompting Inversion" (arXiv:2510.22251, 2025년 10월)

단계별 규칙, 제약 조건, 세밀한 지시 체계로 꽉 짜인 복잡한 프롬프트는 최상위 모델(GPT-5, Claude Opus 수준)에서 오히려 역효과를 낳는 "프롬프팅 역전(Prompting Inversion)" 현상을 유발합니다.

정교한 제약 조건이 고성능 모델에게는 "과도한 문자적 해석"을 강제하여 자율적인 추론을 방해합니다.
최신 모델일수록 간결하고 명확하게 '원하는 결과'만 지시하는 것이 좋습니다.

(참고용)관련 수치

GSM8K(수학 추론) 벤치마크에서 "Sculpting(제약 기반)" 프롬프팅 vs. 표준 CoT:
- GPT-4o: Sculpting 97% vs. CoT 93% → 복잡한 프롬프트가 더 유리
- GPT-5: Sculpting 94% vs. CoT 96.36% → 복잡한 프롬프트가 오히려 불리
GPT-5의 Zero-Shot 성능이 이미 GPT-4o에서 최선의 프롬프트로 달성한 성능을 초과

프롬프트 예시

과도하게 구조화된 프롬프트 (GPT-5급 모델에서 역효과):

다음 지시를 순서대로 따라줘.
1. 먼저 질문을 읽어라.
2. 질문과 관련된 키워드를 추출하라.
3. 각 키워드에 대한 정의를 내려라.
4. 정의를 바탕으로 답변의 뼈대를 만들어라.
5. 뼈대를 채워 완성된 문장으로 작성하라.
6. 작성한 내용을 검토하고 오류를 수정하라.
7. 최종 답변을 출력하라.

질문: REST API와 GraphQL의 차이점은?

간결하고 명확한 프롬프트:

REST API와 GraphQL의 주요 차이점을 기술적 관점에서 비교해줘.
각각의 장단점과 어떤 상황에서 선택해야 하는지도 포함해줘.

5. "마법 단어(Magic word)" 및 감정적 조작 문구

참고 자료: Wharton GAIL "Prompting Science Report 2" (Meincke, Mollick et al., 2025); Medium "Magic Phrases Don't Work" (2026년 1월)

2023~2024년에 유행했던 다음과 같은 문구들은 현재 프론티어 모델에서 일관된 효과를 보이지 않습니다:

"제발(please) 해줘"
"200달러 팁을 줄게"
"이 일을 못하면 내가 해고돼"
EmotionPrompt 스타일의 감정 자극 문구 ("이건 내 커리어에 정말 중요한 일이야")

초기 EmotionPrompt 연구(Cheng et al., 2023)에서는 이전 모델 대상으로 일부 벤치마크에서 8~115% 향상을 보고했지만, 현대 모델에서의 재현 실험에서는 결과가 일관되지 않거나 효과가 미미합니다.
앞서 언급한 프롬프트 템플릿 연구(arXiv:2411.10541)도 형식이 최대 40% 성능 차이를 만들어낸다는 점에서 이를 뒷받침합니다.

프롬프트 예시

감정적 조작 문구 사용 (효과 없음)

제발 부탁인데, 이 SQL 쿼리 최적화 좀 도와줘.
회사에서 이걸 못 고치면 내가 해고될 것 같아. 정말 중요한 일이야.
최선을 다해서 완벽하게 해줘.

SELECT * FROM orders WHERE created_at > '2024-01-01'

구조적이고 명확한 방식

다음 SQL 쿼리의 성능을 최적화해줘.

현재 문제: orders 테이블(약 500만 행)에서 날짜 필터링 시 풀 스캔 발생
DB: PostgreSQL 15
요구사항: 응답 시간 5초 → 500ms 이하로 단축

SELECT * FROM orders WHERE created_at > '2024-01-01'

개선 방안과 함께 실행 계획(EXPLAIN) 상의 기대 효과도 설명해줘.

마무리

이번 글을 정리하며 저도 사용하고 있던 프롬프팅 방법에 대해 고찰할 수 있게 되었습니다.
그리고 여러 글을 찾아보며 느낀 점으로는 역시 발전이 빨라서 트렌드를 바로 파악하지 않으면 사용하고 있는 모델에 적절하지 않은 프롬프트를 사용하고 있는 경우가 많을 것 같았습니다.

긴 글 읽어주셔서 감사합니다.

참고 자료

#	제목	출처
1	Adaptive Graph of Thoughts (AGoT)	arXiv:2502.05078
2	Confidence Improves Self-Consistency in LLMs (CISC)	arXiv:2502.06233 / ACL 2025
3	Prompt Repetition Improves Non-Reasoning LLMs	arXiv:2512.14982
4	Chain-of-Thought Prompt Optimization via Adversarial Learning	MDPI Information, Dec 2025
5	DR-CoT: Dynamic Recursive Chain of Thought	Scientific Reports / Nature, 2025
6	The Decreasing Value of Chain of Thought in Prompting	arXiv:2506.07142
7	Role-Play Paradox in Large Language Models	arXiv:2409.13979
8	The Few-Shot Dilemma: Over-prompting Large Language Models	arXiv:2509.13196
9	You Don't Need Prompt Engineering Anymore: The Prompting Inversion	arXiv:2510.22251
10	Does Prompt Formatting Have Any Impact on LLM Performance?	arXiv:2411.10541
11	Wharton GAIL Chain-of-Thought Technical Report	Wharton GAIL
12	Daily Arxiv	Daily Arxiv

문의 사항은 클래스메소드 코리아로!

클래스메소드 코리아에서는 다양한 세미나 및 이벤트를 진행하고 있습니다.
진행중인 이벤트에 대해 아래 페이지를 참고해주세요.

https://classmethod.kr/board/library

AWS에 대한 상담 및 클래스 메소드 멤버스에 관한 문의사항은 아래 메일로 연락주시면 감사드립니다!
Info@classmethod.kr

脚注

뒤에서 설명할 프롬프팅에서도 언급되지만 이제는 단어가 아닌 형식이 중요합니다 ↩︎

26년 3월 기준, 알아두면 좋은 AI 프롬프팅 기법

프롬프팅이란?

최근 사용되는 프롬프팅 기법

1. Adaptive Graph of Thoughts

2. Confidence-Informed Self-Consistency

3. Prompt Repetition (프롬프트 반복) — 질문 두 번 붙여넣기

4. Adversarial Chain-of-Thought (Adv-CoT)

5. DR-CoT (Dynamic Recursive Chain of Thought)

사용되지 않는 프롬프팅 기법

1. 추론 모델에 "단계별로 생각해줘" 추가

2. 롤 프롬프팅 ("당신은 X 분야의 전문가입니다")

3. 과도한 Few-Shot 예시 제공 (5개 초과)

4. 고성능 모델에 대한 복잡한 프롬프트 스캐폴딩

5. "마법 단어(Magic word)" 및 감정적 조작 문구

마무리

참고 자료

문의 사항은 클래스메소드 코리아로!

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS