그 동안 여러 AI서비스를 이용하면서 서비스마다 분명한 차이점이 존재한다는 걸 느끼게 되었다. 대표적으로 "GPT는 유독 환각이 심하다."라는 믿음이 생겼다. AI서비스 사용 기간이 늘어나면서 이런 믿음은 더 강해졌고, 이것이 나만 느끼는 주관적인 감정인지 아니면 객관적으로 입증할 수 있는 현상인지 궁금해졌다. 이를 밝히기 위해서 몇가지 자료를 찾았고 나름의 답을 내릴 수 있었다. 모델별 할루시네이션 발생 비율 먼저, 모델별 할루시네이션 발생 빈도를 측정한 자료를 찾았다. 참고한 자료는 HHEM(Hughes Hallucination Evaluation Model) 리더보드(Leaderboard)다. HHEM은 LLM 답변이 할루시네이션인지 아닌지를 판단하는 AI모델이다. HHEM 리더보드에는 HH..