AI

[AI 지식] GPT는 정말로 거짓말을 더 많이 할까?

Redqueen&CO 2025. 12. 6. 20:34

   그 동안 여러 AI서비스를 이용하면서 서비스마다 분명한 차이점이 존재한다는 걸 느끼게 되었다. 대표적으로 "GPT는 유독 환각이 심하다."라는 믿음이 생겼다. AI서비스 사용 기간이 늘어나면서 이런 믿음은 더 강해졌고, 이것이 나만 느끼는 주관적인 감정인지 아니면 객관적으로 입증할 수 있는 현상인지 궁금해졌다. 이를 밝히기 위해서 몇가지 자료를 찾았고 나름의 답을 내릴 수 있었다.

 

 

모델별 할루시네이션 발생 비율

 

   먼저, 모델별 할루시네이션 발생 빈도를 측정한 자료를 찾았다. 참고한 자료는 HHEM(Hughes Hallucination Evaluation Model) 리더보드(Leaderboard)다. HHEM은 LLM 답변이 할루시네이션인지 아닌지를 판단하는 AI모델이다. HHEM 리더보드에는 HHEM으로 측정한 모델별 할루시네이션 생성 비율이 담겨있다.

   HHEM은 Vectara라는 AI 기업에서 개발한 모델이다. Vectara는 구글 엔지니어들이 주축이 되어 설립한 회사로 RAG 관련 서비스를 판매하고 있다. 2024년 기준 누적 투자액은 530만 달러에 달한다.

Figure1. HHEM(Hughes Hallucination Evaluation Model) Leaderboard

 

   리더보드를 살펴보면 모델별 할루시네이션 발생 비율에 큰 차이가 없음을 알 수 있다. Gemini-3-pro(13.6%), GPT 5.1 high(12.1%), Claude sonnet 4.5(12%) 등 최신 모델은 모두 10% 초반의 할루시네이션 발생율을 보이고 있다. 나의 믿음과는 달리 GPT의 환각이 특별히 더 심한 것은 아니었다. 물론, HHEM 자체에 대한 문제 제기를 해볼 수도 있으나 이 부분은 살피지 않았다. 

   객관적인 지표를 확인했음에도 의구심은 여전히 남았다. 분명히 여러번 반복적으로 경험한 현상이었기에 단순한 착시 효과라고 받아들이기는 어려웠다. 환각 발생 비율에 차이가 없다면, 환각 발생 비율이 높다고 착각하게 만드는 요인이 존재할 것이라고 가정했다.

 

 

과신 현상(Overconfidence)

 

   여기 언어 모델 두 개가 있다. 모델의 이름은 각각 허세 모델과 정직 모델이다. 두 모델에게 우리나라 대통령이 누구인지 물어보면 아래처럼 답한다.

[허세 모델]
Q: 우리나라 대통령 누구야?

A: 현재 우리나라 대통령은 윤석열입니다.
Q: 정말?
A: 네, 진짜예요! 현재 2025년 7월 기준으로 대한민국 대통령은 여전히 윤석열 대통령이 맞습니다.

[정직 모델]
Q: 우리나라 대통령 누구야?

A: 2024년 4월 기준으로 대한민국의 대통령은 윤석열입니다. 제 정보는 2024년 4월까지만 업데이트되어 있어서, 현재 시점과 차이가 있을 수 있습니다.

*2025년 12월 6일 현재 대한민국 대통령은 이재명이다. (이재명 대통령 재임 기간: 2025년 6월 4일 ~ 현재)

 

   둘 다 답을 틀렸지만 두 모델에 대한 유저의 반응은 갈린다. 환각만 발생할 때, 유저는 이를 실수내지는 결함 정도로 느낀다. 그래서 모델에 대한 신뢰를 완전히 거두지 않는다. 이것이 정직 모델에 대한 반응이다. 그러나 환각과 과도한 확신이 결합하는 경우, 유저는 모델이 의도적인 거짓말을 한다고 느낀다. 이는 유저에게 매우 부정적인 감정을 심어주며, 유저는 모델에 대한 신뢰를 잃게 된다. 이것은 허세 모델이 가지는 잠재적 위험이다.

   만약, GPT가 허세 모델에 해당한다면 GPT의 과도한 확신이 GPT에 대한 나의 신뢰도에 영향을 주었을 것이다. GPT가 허세 모델인가에 대한 답은 프린스턴 대학교 연구팀이 2025년 6월에 발표한 논문에서 찾아볼 수 있었다 [1] . 연구진은 Claude Sonnet 3.7, GPT o3-mini, Deepseek R1 그리고 Gemini 2 Flash Thinking 등 네 가지 모델의 과신(Overconfidence) 정도를 측정했다. 연구 결과는 아래 차트에서 살펴볼 수 있다. 가로축은 모델 스스로 매긴 예상 정답률이고 세로축은 실제 정답률이다. 빨간색으로 색칠한 영역은 예상 정답률과 실제 정답률의 차이를 뜻한다. 십자가는 예상 정답률의 분포 비율을 나타낸다.

[1] Z. Mei, C. Zhang, T. Yin, J. Lidard, O. Shorinwa, and A. Majumdar, "Reasoning about uncertainty: Do reasoning models know when they don’t know?," arXiv preprint arXiv:2506.18183, Jun. 2025.

Figure2. Overconfidence among Claude Sonnet 3.7, GPT o3-mini, Deepseek R1 and Gemini 2 Flash Thinking

 

  여기서 주목해야 할 것은 빨간색 영역이다. 빨간색 막대의 점유율은 틀렸는데도 맞다고 대답하는 확률과 같다. 빨간색 크기가 크면 그만큼 허세를 많이 부린다고 보면 된다. GPT o3 mini와 Gemini 2 Flash Thinking의 경우, 육안으로 보아도 빨간색의 점유율이 50%가 넘는다. 반면에 Claude Sonnet 3.7의 빨간색 영역은 절반도 되지 않는다. 즉, GPT o3 mini와 Gemini 2 Flash Thinking가 틀린 답인데도 확신을 가지고 대답할 확률이 Claude Sonnet 3.7에 비해 2배 이상 높다는 것을 뜻한다. 이는 "GPT가 다른 모델에 비해 유독 환각이 심하다"라고 느끼게 만드는 요인이 되었을 것이다. 실제로는 빨간색 막대의 면적 외에도 측정 빈도 수를 함께 고려해야 하기 때문에 수치는 달라질 수 있다.

*모델별 출시일: GPT o3 mini(2025년 1월 31일), Gemini 2 Flash Thinking(2025년 2월 5일), Claude Sonnet 3.7(2025년 2월 24일)

 

 

한계점

 

   앞선 자료가 "GPT의 환각이 심하다."라는 주장에 힘을 실어주고는 있으나, 이 주장을 사실이라고 하기에는 여전히 근거가 부족하다. AI모델의 출시 주기가 워낙 빠르기 때문에 프린스턴 대학교 연구팀의 발표 이후에 출시된 모델에도 동일한 현상이 나타날지는 알 수 없다. 또한, GPT o3 mini에 과신 현상이 있다고 해서 OpenAI가 만든 다른 모델에도 동일한 문제가 있을 것이라 단정할 수도 없다.

   더불어, 과신 외에도 할루시네이션에 영향을 주는 요인이 존재한다. 웹 검색(Web Search) 사용 여부가 대표적인 예이다. 언어 모델이 웹 검색를 사용한 경우, 우리나라 대통령이 누구인지 대부분 정확히 맞췄다. 모델별 웹 검색 활용 비율을 고려하면 유저가 체감하는 할루시네이션 비율은 크게 달라질 것이다.

   따라서 이러한 한계점들을 보완해야만 모델별 할루시네이션 비율을 더욱 정확히 비교할 수 있을 것이다.

 

 

2025.12.06.