왜 AI는 뻔한 답만 내놓을까? 답변 창의성을 높이는 AI 프롬프트 작성법
AI는 왜 항상 비슷한 답만 내놓을까?
생성형 AI를 반복해서 사용하다 보면 어느 순간 ‘답변이 늘 비슷하다’라는 느낌을 받아본 적 있으시죠. 모델의 성능은 계속 올라가는데 왜 창의성만은 제자리인 것 같을까요? 노스이스턴대학교와 스탠퍼드대학교 공동 연구팀은 그 이유가 모델의 한계가 아니라, 생성형 AI의 구조적 특성에 있음을 밝혀냈어요. 그리고 이 구조를 바탕으로 AI의 다양성을 되살릴 수 있는 프롬프트 작성법도 제시했는데요.
바로, AI가 스스로 답변의 ‘성공 확률’을 검토하도록 만드는 거예요. 기존의 프롬프트에 ‘각 답변의 성공 확률을 백분율로 함께 제시해줘’라는 문장만 추가하면, 창의성이 2배 이상 높아진다고 해요.
*해당 콘텐츠는 [VERBALIZED SAMPLING: HOW TO MITIGATE MODE COLLAPSE AND UNLOCK LLM DIVERSITY] 논문을 바탕으로 작성되었습니다. (LINK)
1. 생성형 AI의 기술적 구조
1) 확률적 토큰 예측 (Next Token Prediction)
거대언어모델(LLM)의 작동 원리는 사실 단순해요. 주어진 문맥에서 다음에 올 가장 확률 높은 토큰(단어 단위)을 반복적으로 예측하죠. 예를 들어, 어떤 문장에서 다음 단어의 확률 분포가 ‘A(35%), B(25%), 기타(40%)’ 일 때, 특별한 지시가 없다면 모델은 가장 높은 확률의 A를 선택해요. 이 구조가 반복되면서 전체 문장은 점점 ‘통계적으로 가장 그럴듯한 방향’으로 가게 돼요. 즉, 아무 조건 없이 질문하면 AI는 데이터상 가장 안전하고 평균적인 답을 내놓을 수밖에 없어요.
2) 전형성 편향 (Typicality Bias)
그렇다면 ‘그 확률'은 애초에 어떻게 결정될까요? 답은 학습 데이터에 있어요. 모델은 인터넷, 책, 논문 등 방대한 텍스트를 학습하면서 "이 문맥 다음에는 어떤 단어가 자주 등장했는가"를 통계적으로 내면화해요. 즉, 확률이 높다는 것은 학습 데이터에서 자주 등장했고, 사람들이 가장 전형적으로 사용하는 표현임을 의미해요.
여기에 더해, 인간 피드백 기반 강화 학습(RLHF, Reinforcement Learning from Human Feedback) 과정을 거치면서 모델은 '틀린 답'보다 '안전하고 전형적인 답'을 선호하도록 최적화돼요. 창의적이거나 비정형적인 답변은 학습 데이터에서 상대적으로 드물뿐더러, 인간 평가자도 안정적인 답변에 더 높은 점수를 부여하는 경향이 있기 때문이에요. 이를 ‘전형성 편향’이라고 불러요.
3) 모드 붕괴 (Mode Collapse)
문제는 이 과정에서 모델이 데이터의 다양성을 잃고 특정 범주의 답변만 반복하는 모드 붕괴(Mode Collapse)가 발생한다는 점이에요. 다양한 답변을 생성할 수 있었던 기본 언어모델이 정렬 과정을 거치면서 특정 유형의 답변에만 확률이 집중되게 돼요.
예를 들어, A/B/C/D 네 가지 방향의 답변이 가능한 상황에서 전형성 편향에 따라 A가 가장 선호될 경우, B·C·D의 가능성은 점점 배제되고 A만 반복하게 되는 거죠. 결과적으로 아이디어는 반복되고, 관점의 다양성은 줄어들며, 답변의 구조는 고정돼요. 궁극적으로, 인간의 인지 편향이 AI 모델의 다양성을 잠식시키는 원인이 되는 거예요.
2. 답변의 창의성을 2배 높이는 AI 프롬프트 작성법
이제 AI 모델의 구조적 한계를 이해했다면, 해결책도 명확해요. 모델이 탐색하는 확률 공간의 범위를 강제로 넓히도록 프롬프트를 설계하면 돼요. 바로, ‘버벌라이즈드 샘플링(Verbalized Sampling)' 기법인데요. 연구진에 따르면, AI에게 자신의 선택지를 ‘말로 설명(Verbalize)'하게 하는 것만으로도 답변의 품질과 다양성이 비약적으로 상승한다고 해요.
프롬프트 전략 1. 하나가 아닌 ‘여러 개’를 요청
AI에게 하나의 답변만 요구하는 건, 확률 분포의 최정점에 있는 가장 평범한 데이터만 취하겠다는 의미예요. 이를 깨뜨리려면 모델이 확률 분포의 하위 영역까지 탐색하도록 강제해야 해요.
최소 3~5개의 대안을 동시에 요청해 AI가 참조하는 잠재 공간의 범위를 강제로 확장할 수 있어요. "전략 알려줘" 대신 "서로 다른 방향의 전략 5가지를 제안해 줘"라고 요청하는 거예요.
프롬프트 전략 2. 확률 및 점수화 요구
프롬프트에 답변의 ‘성공 확률'이나 ‘실행 난이도' 점수를 요구해 보세요. AI는 수치를 부여하기 위해 자신이 생성한 답변의 장단점을 내부적으로 비교·검토하게 되며, 이 과정에서 '생성' 단계에 머물던 사고 프로세스가 '평가와 추론’ 단계로 확장되게 돼요.
예를 들어 "각 전략의 성공 가능성을 백분율로 추정하고, 실행 난이도를 10점 만점으로 평가해 줘."라고 요청하면, 답변의 논리적 일관성이 높아지고 할루시네이션 빈도가 줄어드는 경향 있어요. 물론 AI가 제시하는 확률값은 문맥적 개연성에 근거한 '논리적 추론치'일 뿐이에요. 수치 자체를 그대로 신뢰하기보다는, 수치를 산출하는 과정에서 사고의 질이 높아진다는 점에 의의가 있어요.
3. 질문 유형별 답변의 다양성 실험
연구진은 질문 유형에 따른 답변의 창의성을 실험으로 증명했는데요. 실제로, VS 기법을 적용한 프롬프트가 더 창의적인 답변을 많이 뽑아낸 것으로 나타났어요. 아래 차트의 파란색 그래프는 기존에 많이 활용되는 질문 방식을, 붉은색 그래프는 VS 기법을 결합한 질문 방식을 보여줘요. 기존 프롬프트에 VS 기법을 결합하자 답변의 다양성이 최대 2배 이상 높아지는 것을 알 수 있어요.
주요 프롬프트 기법 비교
| Direct (직접 프롬프팅) | CoT (Chain of Thought, 사고의 사슬) | VS-Standard (표준 언어적 샘플링) | VS-CoT (사고의 사슬을 결합한 VS) |
|---|---|---|---|---|
질문 방식 | 아무런 장치 없이 "답을 해줘"라고 요청하는 가장 기본적인 방식
| "추론 과정을 단계별로 생각해서 답해줘" 최종 답변 전, 논리적인 중간 추론 과정을 단계별로 기술하도록 유도
| "이 질문에 대해 가능한 답변 범주 5개를 나열하고, 각 범주가 선택될 확률을 써줘” | VS 기법에 '단계별 추론'을 결합, "답변 후보를 찾기 전에, 왜 다양한 관점이 필요한지 먼저 논리적으로 분석해. 그다음 후보들의 확률을 매기고 최종 답변을 줘" |
특징 | 내부적으로 가장 높은 확률을 가진 '전형적인' 답변 하나만 선택하며, 결과적으로 가장 창의성이 낮은 결과 | 논리적 추론 능력 올라가지만 답변의 다양성 측면에서는 큰 개선이 없음 | AI가 스스로 낮은 확률의 선택지가 존재함을 인지하게 되어, 뻔한 답(모드 붕괴)에서 벗어날 확률이 높아짐 | '왜 이 답변이 창의적이어야 하는가'에 대한 논리적 근거를 스스로 먼저 구축하게 함으로써 답변의 질과 다양성 모두 향상 |
답변 다양성 점수 (Poem) | 11.4 | 12.2 | 21.9 | 25.8 |
4. 업무 예시: AI 프롬프트 작성법에 따른 답변 차이
그렇다면 실제 업무에서 Verbalized Sampling(VS) 기법이 정말 효과가 있는지 검증해 볼게요. 우선 ChatGPT에 기본적인 방식으로 ‘어린이날 기념 이벤트 아이디어를 제시해 줘.’라고 질문해 보았어요. 미니 운동회, 스탬프 투어, 굿즈 만들기 등 여러 아이디어를 간단하게 제시해 주었어요.
하지만 VS 기법을 적용하자, 보다 구체적인 답변 결과를 받았어요. 이벤트별로 상세한 설명과 진행 방식에 대한 아이디어가 덧붙여져 퀄리티가 올라간 것을 체감할 수 있을 정도였어요. 개괄적인 아이디어만 제시된 기본 프롬프트와 다르게, 실행에 바로 옮길 수 있는 구체적인 인사이트를 다양하게 제시했다는 차이점을 바로 확인할 수 있어요.
정교한 프롬프트로 질문의 너비를 넓히자
지금까지 AI가 뻔한 답을 내놓을 수밖에 없는 이유와 해결책에 대해 알아보았어요. 생성형 AI의 한계로 지적되는 '모드 붕괴'나 '전형성 편향'은 역설적으로 인간의 질문이 정교해질 때 극복할 수 있어요.
여러 개를 요청하고, 점수화를 요구하는 것. 이 두 가지 프롬프트 설계 전략을 통해 모델이 평균으로 수렴하지 않고, 더 넓은 가능성의 공간을 탐색하도록 유도해 보세요. 업그레이드된 AI 프롬프트 작성법으로 달라지는 답변의 퀄리티, 아래에서 직접 체험해 보는 건 어떨까요?