자료 분석

[week11] 다양한 프롬프팅 기법 그리고 고착

mapsycoy 2025. 9. 7. 22:14
AI 프롬프팅이 거의 일상이 된 지금, 나를 가장 힘들게 하는 것이 있다.
프롬프팅을 반복하다 보면 어느 순간 문학적 표현력과 창작자로서의 주체성은 사라지고, 오로지 AI를 위한 구조화 작업에 매몰된 나 자신을 발견하게 된다. 어쩌면 코딩이라는 것이 본래 그런 작업일지도 모른다.
그러나 이것은 내가 그림쟁이로서의 본질을 잃을까 하는 두려움을 토로하는 것이 아니다. 내가 정말 하고 싶은 이야기는 따로 있다.
그것은 아이러니하게도, AI 시대가 도래한 지금 자유로운 발상과 창작이 오히려 더 힘들어졌다는 하소연이다.

 

실제로 프롬프트의 길이나 형식, 심지어 단어 하나의 차이가 결과물의 품질을 완전히 뒤집기도 한다.

이는 AI가 단순히 언어를 읽는 것이 아니라 그 안의 패턴과 제약을 분석하기 때문이다.

 

그렇다면 가장 이상적인 프롬프팅 기법은 과연 무엇일까? 요즘 영상 제작에 많이 쓰이는 JSON 형식?

사실 정답은 하나가 아니다.

이상적인 프롬프팅은 맥락과 목적에 따라 달라지는 '가변적 전략'이다.

 

이번 포스팅에서는 아래 자료 분석 및 나의 의견을 더해 그 다양한 전략에 대해서 알아보고자 한다.

 

Prompt Engineering and the Effectiveness of Large Language Models in Enhancing Human Productivity

The development of Large Language Models (LLMs) like ChatGPT, Gemini, and DeepSeek has transformed how individuals can engage with technology. The ability of these AI tools to generate content, provide content summaries, code, and even give expert analysis

arxiv.org

*이는 지난 4월 4일 난징 대학교 컴퓨터 과학 연구원에 의해 작성된 글로, 비교적 최근인 8월 27일에 arxiv[1]으로부터 라이선스를 부여받았다.


[목차여기]

프롬프트 엔지니어링(prompt engineering) 기법은 크게 두 가지로 나뉜다.

  1. 수동(manually constructed) 프롬프팅 기법
    인간 사용자가 직관(intuition), 논리(logic), 혹은 과업 특화 템플릿(task-specific templates)을 활용해 직접 설계한 방법
  2. 자동(automatically generated) 프롬프팅 기법 
    알고리즘적 또는 학습 기반 방법을 통해, 최소한의 인간 개입으로 생성되거나 최적화된 방법

01. 수동 프롬프팅 기법 5가지

  1. Zero-shot prompting
    → 예시 입력-출력 과정을 '전혀 주지 않고' 모델에게 과업을 지시하는 방식
    → 전적으로 사전 학습(pre-trained) 지식에 의존
  2. Few-shot prompting
    → 소수의 입력-출력 예시를 프롬프트에 포함해 모델이 과업 패턴을 '추론'하도록 돕는 방식
    → 특히 패턴 인식이나 스타일 모방이 필요한 영역에서 효과적
  3. Chain-of-thought (CoT) prompting
    → 모델에게 추론 과정을 '단계별로' 명시적으로 보여 달라고 요청하는 방식
    → 수학 문제 해결이나 논리적 과업에서 유용하며, 모델이 설명 가능성과 정확도를 높이는 데 도움을 줌
  4. Instruction prompting
    → '명확한' 과업 지시를 직접 제공하는 방식
    지시문의 명확성·구체성이 응답의 구조와 톤을 결정하는 핵심 요소
  5. Role prompting
    → 모델에게 '특정 역할을 부여'해, 응답의 톤, 형식, 깊이를 조절하는 방식
    → 각종 상황 등에서 맞춤형 응답을 생성하는 데 활용
강점 약점
일반 수준의 사용자도 실시간으로 적용 가능 개인 역량에 따른 한계
이전 데이터와 뒤섞이는 현상

단문 VS 장문

사람이 수동으로 하는 프롬프팅은 단문과 장문으로 총 둘로 나눌 수 있다.

  조건 강점 약점

단문
고(高)제약 제어력 ↑ (정확한 형식 제어)
효율성 유지하면서 일관성 향상
창의성 ↓ (제한으로 인해 유연성 부족)
과도한 제약 시 출력 단순화.
저(低)제약 창의성↑
초기 브레인스토밍 과정에 적합
일관성 ↓ (변동성 높음)
재현성 
장문

고(高)제약 (= JSON / 스키마[2])
재현성·일관성↑
창의성↓
저(低)제약 깊이 ↑ (스토리텔링)
창의성 유지
군더더기 ↑ (불필요한 TMI로 AI 혼란)
통제력 △ (변동성 있음)

 

일반적인 AI유저라면 직접 입력하는 단계에서는 단문 구조를 많이 사용한다고 본다.

그리고 LLM과 여러 단계의 피드백을 거쳐 얻어낸 프롬프트는 대부분 장문으로 이루어진다.

실제로 LLM에게 '짧고, 간결하게, 직관적으로'라는 키워드를 별도로 명시하지 않으면 보통은 장문의 프롬프트를 제공해 줄 것이다.

그러니 인간이 직접 작성하는 프롬프팅과 AI에게 제공받아 가공하는 프롬프팅 방식은 각각의 장단점이 뚜렷하기 때문에 상황에 맞게끔 병행하는 것이 올바르다.


02. 자동 프롬프트 생성 기법 4가지

  1. Automatic Prompt Engineer (APE)
    → APE는 LLM이 '스스로 프롬프트를 설계'하는 프레임워크
  2. Prompt tuning / Soft prompts
    → 사람이 직접 쓰는 텍스트 문자열 대신, 연속 벡터(learned embeddings)를 입력 앞에 붙여 사용하는 방식
    → 이 벡터는 신경망 가중치처럼 역전파(backpropagation)를 통해 학습되는 trainable parameters이다.
    → few-shot이나 저자원(low-resource) 환경에서 특히 강력한 성능을 보임
  3. Reinforcement learning for prompt selection
    → 피드백 신호(reward signal)를 활용해 프롬프트를 선택하거나 조정
    → 정확도(accuracy), BLEU[3] 점수 같은 보상 함수를 기준으로, 반복적으로 프롬프트 품질을 개선
    → 최적의 프롬프트 설계가 명확하지 않고, 동적 조정이 필요한 과업에 적합
  4. Gradient-based prompt optimization (경사하강법)
    → 프롬프트 텍스트에 대해 gradient[4]를 계산해 최적의 표현을 찾는 방식
    → 주로 자동 벤치마킹이나 AI 테스트 파이프라인에서 활용
강점 약점
사람이 효과적으로 구상하기 어려운 프롬프팅을 제작할 수 있음 높은 난이도 / 높은 토큰 비용

 

그냥 인터넷 접속이 가능한 환경만 있으면 되는 수동 프롬프팅과는 달리 위 자동 프롬프팅을 하기 위해서는 별도의 사전 준비물과 지식이 필요하다.

전략 준비물 난이도
APE
1.LLM (API 또는 로컬 모델) 일반
2.평가 메트릭 (F1 스코어)
Prompt tuning
1.딥러닝 프레임워크 (PyTorch, TensorFlow) 전문가용
2.사전 학습된 LLM
3.레이블링된 데이터
4.GPU/TPU 같은 컴퓨팅 자원
강화학습(RL)
1.RL 알고리즘 라이브러리 (Stable-Baselines3, RLlib) 전문가용
2. LLM
3.보상 함수 (BLEU 점수)
4.GPU/TPU 같은 컴퓨팅 자원
경사하강법
1.딥러닝 프레임워크 (PyTorch, TensorFlow)
전문가용
2.LLM
3.미분 가능한 손실 함수 (분류 정확도 기반)
4. GPU/TPU 같은 컴퓨팅 자원

 

APE 방식을 제외하고는 딥러닝 지식이 요구되므로 그것들은 나중에 더 열심히 공부를 한 뒤에 다루도록 해보겠다.


APE 속 F1 Score

F1 스코어
→ Precision(정밀도)과 Recall(재현율)의 조화평균값을 계산하여 분류모델의 성능을 평가하는 지표로, 특히 클래스 불균형이 있는 데이터셋에서 유용하다고 한다.

 

 

F1 = 2×Precision×RecallPrecision+Recall

  • Precision (정밀도): 모델이 긍정으로 예측한 것 중 실제 긍정인 비율 {TP / (TP + FP)}
  • Recall (재현율): 실제 긍정 중 모델이 긍정으로 예측한 비율 {TP / (TP + FN)}
  • True Positive (TP): 올바른 긍정 예측
  • False Positive (FP): 잘못된 긍정 예측
  • False Negative (FN): 잘못된 부정 예측

왜 이것이 필요한가?

실제로 정확도만으로는 분류모델의 성능을 제대로 검증하기 어렵기 때문이다.

 

예를 들어 내가 분류모델에게 99장의 바나나 이미지를 주고 단 한 장의 망고 이미지를 줬다고 가정해 보자.

만약 AI의 이미지 분류 결과가 100% 바나나라고 하였을 때, 그것은 아주 큰 오류이지만, 오직 정확도만 따졌을 때는 99%로 높게 평가된다는 것이다. 

이는 긍정 샘플이 지나치게 많은 불균형 데이터셋에 속하기 때문에 다른 계산법이 필요하다.

그러나 위에서 언급한 일반적인 F1 스코어 계산법만으로는 극한의 소수 클래스에서의 오류를 완전히 점수에 반영하기가 어렵다.

 

1. 망고를 긍정 클래스로 둔 경우

  • TP(🥭)=0, FP(🍌)=0, FN(🥭)=1, TN(🍌)=99
  • Precision(🥭) = 0/(0+0) = 0
  • Recall(🥭) = 0/(0+1) = 0
  • F1(🥭) = 0

2. 바나나를 긍정 클래스로 둔 경우

  • TP(🍌)=99, FP(🥭)=1, FN(🍌)=0, TN(🥭)=0
  • Precision(🍌) = 99/100 = 0.99
  • Recall(🍌) = 99/99 = 1.00
  • F1(🍌) ≈ 0.995

이런 결과값이 나오기 때문에 우리는 여기에 'Macro F1' 계산법을 한번 더 적용하여야 한다.

Macro F1은 클래스별 F1 Score를 먼저 구한 뒤, 그 값들을 단순 평균 내는 방식이다.

  • F1(🍌) ≈ 0.995
  • F1(🥭) = 0
  • 전체 클래스 = 2
  • Macro F1 = (0.995 + 0) / 2 ≈ 0.498

이렇게 계산하면 해당 분류모델의 정확도는 99%가 아닌 대략 49.8%로 짐작해 볼 수 있다.


사용자가 AI 시스템과 상호작용할 때, 구조화된 프롬프팅 전략을 어떻게 적용하는가?

구조화된 프롬프팅 전략은 LLM의 행동을 유도하기 위해 의도적으로 형식(formatting)이나 표현(phrasings)을 설계하는 기법이다. 자료에서 작성자는 각 설문대상자들에게 아래 대표적인 수동적 전략들 중 평소 자신이 어떤 기법을 자주 사용하는지 선택하도록 요청했다고 한다.

  • Zero-shot prompting
  • Few-shot prompting
  • Chain-of-thought prompting
  • Instruction prompting
  • Role prompting

응답자들의 답변은 다음과 같았다.

프롬프팅 전략 언급 횟수
Role prompting 105
Chain-of-thought prompting 97
Instruction prompting 94
Zero-shot prompting 93
Few-shot prompting 89

프롬프팅 결과물 만족도 조사

만족도 수준 응답자 수
항상 만족 14
자주 만족 105
가끔 만족 108
드물게 만족 14
절대 만족 안 함 2

과업 효율성(work efficiency) 측면에서 AI 활용이 더 빠르고 효율적인 과업 수행으로 이어지는가?

AI 효율성에 대한 믿음 응답자 수
매우 동의함 98
동의함 86
중립 42
동의하지 않음 11
전혀 동의하지 않음 6

 

참고로 이 설문조사의 대상은 AI를 오직 작문, 요약, 코딩에 사용하는 집단으로 한정되었고, 정작 창작 분야는 포함되지 않았다. 따라서 그 결과를 그대로 일반화하기는 어렵다.

창작에서는 이게 현실이다.

창작은 정답이 존재하지 않고 무(無)에서 유(有)를 창조해야 하는 영역이다. 이 때문에 AI가 등장했다고 해서 작업 시간이 획기적으로 단축되지는 않는다. 오히려 AI가 제공하는 무수한 바리에이션은 작업자가 선택하고 조율해야 할 옵션을 기하급수적으로 증가시켜, 새로운 부담으로 작용할 수 있다. 따라서 창작 영역에서 AI는 단순한 시간 절약 도구라기보다, 다양한 가능성을 탐색하게 하는 확장적 도구로 이해하는 것이 타당하다. 그러나 이를 단순히 시간 단축의 수단으로만 인식할 경우, 제한된 시간 안에 더 많은 옵션 요청과 수정 사항이 발생하며, 그에 따른 검수·의사결정 과정의 부담은 오히려 심화된다. 기업 입장에서는 줄어든 시간 안에 더 많은 산출물을 얻을 수 있다는 점에서 효율적으로 보일 수 있지만, 개인의 입장에서는 업무 부담이 가중되기 때문에 실질적으로는 과업 효율성이 떨어진다고 볼 수 있다.


AI는 다양한 옵션을 빠르게 제시해 주는 도구일 뿐이다.

생성형 AI는 인간의 창의성을 보조하고 발산적 사고(divergent thinking)를 촉진하는 도구로 주목받아 왔지만, 이를 뒷받침하는 실증적 근거는 아직 부족하다.

 

The Effects of Generative AI on Design Fixation and Divergent Thinking

Generative AI systems have been heralded as tools for augmenting human creativity and inspiring divergent thinking, though with little empirical evidence for these claims. This paper explores the effects of exposure to AI-generated images on measures of de

arxiv.org

본 논문은 시각적 아이데이션 과제(visual ideation task)에서 AI 생성 이미지에 대한 노출이 디자인 고착(design fixation)과 발산적 사고에 미치는 효과를 탐구한다.
AI와의 공동 아이데이션(co-ideation)의 효과는 참가자가 선택한 프롬프트 작성 접근법(prompt creation approach)과 AI 제안에 반응하여 아이디어를 확장하는 전략에 크게 의존하는 것으로 나타났다.

 

아무리 정교한 프롬프트를 활용하더라도 창작자는 AI가 제시한 아이디어 속에 갇히는 경향을 보인다는 것이다.

그리고 이와 유사한 또 다른 논문도 있다.

 

How AI Ideas Affect the Creativity, Diversity, and Evolution of Human Ideas: Evidence From a Large, Dynamic Experiment

Exposure to large language model output is rapidly increasing. How will seeing AI-generated ideas affect human ideas? We conducted an experiment (800+ participants, 40+ countries) where participants viewed creative ideas that were from ChatGPT or prior exp

arxiv.org

높은 수준의 AI 아이디어 노출(high exposure)은 개별 창의성(individual creativity)에는 영향을 주지 않았다. 그러나 집단 아이디어의 다양성(collective idea diversity)의 평균 수준과 변화율을 증가시켰다. AI는 아이디어를 더 좋게 만들진 않았지만, 더 다르게 만들었다. 과제가 어려운 경우, 참가자들은 의도적으로 AI 아이디어를 채택하기도 했다. 따라서 AI 아이디어 도입은 집단 수준의 다양성(collective diversity)을 높이지만, 개인의 창의성(individual creativity)을 강화하지는 않는다.

 

즉, AI는 개인의 창의성을 직접 강화하기보다는, 아이디어의 '집단적 다양성'을 확장하는 역할에 머무른다고 볼 수 있다.


옵션이 많은 것이 꼭 좋은 걸까?

AI가 제공하는 수많은 옵션은 단순히 가능성의 확장일 뿐, 항상 효율을 보장하지 않는다. 오히려 심리학적 연구에 따르면 옵션이 많아질수록 인간은 선택 과정에서 어려움과 피로를 경험한다.

  • 선택 과부하 (Overchoice)

Iyengar, S. S., & Lepper, M. R. (2000). When choice is demotivating: Can one desire too much of a good thing? Journal of Personality and Social Psychology, 79(6), 995–1006.

 

구글의 NotebookLM을 이용하여 아래와 같이 간략한 마인드맵을 구성해 보았다. 

선택 과부화: 많을 수록 해롭다

에세이 주제 제시 실험에서도 30개의 주제를 제시받은 집단보다 6개의 제한된 주제를 제시받은 집단이 과제를 더 높은 품질로 완성했다. 이는 옵션이 제한적일 때 오히려 몰입도와 성취도가 향상됨을 보여준다.


오늘의 결론

좋은 프롬프트란 불필요한 옵션을 줄이고, 장문의 요청을 도식화하여 구조화하는 것이다.

반대로 AI는 짧은 시간 안에 무수한 옵션을 제공하는 도구일 뿐이며, 그 속에서 무엇을 선택하고 어떻게 활용할지는 인간의 몫으로 남는다.

AI시대 이전에는 컨셉안이 A~D까지 있었다면, 지금은 A~Z를 꽉 채운다.

따라서 창작 영역에서의 효율성은 "AI가 얼마나 많은 결과물을 뽑아내느냐"가 아니라, "프롬프트 작성자가 그중 무엇을 걸러내고 구조화하느냐"에 달려 있다고 할 수 있다.

 

*썸네일 출처: programmerhumor.io/programming-memes/promptengineer/

  1. arXiv(아카이브)는 수학, 물리학, 천문학, 전산 과학, 계량 생물학, 통계학 분야의 출판 전(preprint) 논문을 수집하는 웹사이트이다. 수학, 물리학, 천문학 분야의 논문은 거의 모두 이곳에서 찾을 수 있다. 2008년 10월 3일, arXiv.org는 문서 수가 50만 개를 넘겼다. 매달 약 5천 편의 새로운 전자 문서(e-print)가 게시되고 있다. [출처: 위키백과]
  2. 스키마(schema, 도식)는 인공지능, 인지과학, 언어학 등에서 공통으로 사용하는 개념으로 지식을 표상하는 구조를 말한다. 인공지능에 대한 연구도 스키마 이론의 발달에 기여한 바가 크다. [출처: 위키백과]
  3. BLEU(bilingual evaluation understudy)는 하나의 자연어에서 다른 자연어로 기계 번역된 텍스트의 품질을 평가하는 알고리즘이다. 품질은 기계의 출력과 인간의 출력 사이의 대응으로 간주된다. "기계 번역이 전문적인 인간 번역에 가까울수록 품질이 더 좋다." 이것이 BLEU의 핵심 아이디어이다. [출처: 위키백과]
  4. 경사 하강법(傾斜下降法, Gradient descent)은 1차 근삿값 발견용 최적화 알고리즘이다. 기본 개념은 함수의 기울기(경사)를 구하고 경사의 반대 방향으로 계속 이동시켜 극값에 이를 때까지 반복시키는 것이다. [출처: 위키백과]