사실 일관성 (HHEM)

이 벤치마크는?

Vectara HHEM이 측정한 사실 일관성 비율. 환각률의 역수(1 - 환각률)로, 높을수록 원문에 충실한 요약을 생성합니다.

출처: Vectara HHEM

순위	모델
#1	Google Gemini 2.5 Pro	93.0%
#2	Meta AI Llama 4 Scout	92.3%
#3	Google Gemini 2.5 Flash	92.2%
#4	Google Gemini 3.1 Flash Lite	91.8%
#5	Meta AI Llama 4 Maverick	91.8%
#6	Anthropic Claude Haiku 4.5	90.2%
#7	Anthropic Claude Sonnet 4	89.7%
#8	Google Gemini 3.1 Pro	89.6%
#9	ChatGPT GPT-5 Nano	89.5%
#10	Anthropic Claude Sonnet 4.6	89.4%
#11	Anthropic Claude Opus 4.5	89.1%
#12	Anthropic Claude Opus 4.1	88.2%
#13	Anthropic Claude Opus 4	88.0%
#14	Anthropic Claude Sonnet 4.5	88.0%
#15	Anthropic Claude Opus 4.6	87.8%
#16	ChatGPT GPT-5 Mini	87.1%
#17	Google Gemini 3 Flash	86.5%
#18	ChatGPT GPT OSS 120B	85.8%
#19	Moonshot AI Kimi K2.5	85.8%
#20	ChatGPT GPT-5	85.3%