HLE (Humanity's Last Exam)

이 벤치마크는?

인류 최고 수준의 전문 지식을 측정하도록 설계된 최고 난이도 벤치마크. 수학, 과학, 공학 등 50개 이상 분야의 극도로 어려운 문제들로 구성됩니다. 점수는 정답률(%)입니다.

출처: Artificial Analysis

순위	모델
#1	Google Gemini 3.1 Pro	44.7%
#2	OpenAI GPT-5.4	41.6%
#3	Meta AI Muse Spark	39.9%
#4	Anthropic Claude Opus 4.6	36.7%
#5	Google Gemini 3 Flash	34.7%
#6	Grok Grok 4.20 (Reasoning)	32.2%
#7	Moonshot AI Kimi K2.5	29.4%
#8	Anthropic Claude Opus 4.5	28.4%
#9	Xiaomi MiMo-V2-Pro	28.3%
#10	MiniMax MiniMax M2.7	28.1%
#11	Z.ai GLM-5	27.2%
#12	Qwen Qwen3.6 Plus	25.7%
#13	Grok Grok 4.20	24.2%
#14	Google Gemma 4 31B	22.7%
#15	DeepSeek DeepSeek V3.2	22.2%
#16	Google Gemini 2.5 Pro	21.1%
#17	NVIDIA Nemotron 3 Super	19.2%
#18	MiniMax MiniMax M2.5	19.1%
#19	Qwen Qwen3.5 397B A17B	18.8%
#20	Grok Grok 4.1 Fast (Reasoning)	17.6%
#21	Anthropic Claude Sonnet 4.5	17.3%
#22	OpenAI GPT-5.4 Mini	17.1%
#23	Google Gemini 3.1 Flash Lite	16.2%
#24	OpenAI GPT-5.4 Nano	14.7%
#25	Baidu ERNIE 5.0 Thinking	12.7%
#26	Anthropic Claude Opus 4.1	11.9%
#27	Anthropic Claude Opus 4	11.7%
#28	Google Gemini 2.5 Flash	11.1%
#29	Anthropic Claude Sonnet 4.6	10.8%
#30	Anthropic Claude Haiku 4.5	9.7%
#31	Anthropic Claude Sonnet 4	9.6%
#32	OpenAI GPT-5 Nano	7.6%
#33	Meituan Longcat Flash Chat	6.0%
#34	OpenAI GPT-5	5.8%
#35	OpenAI GPT OSS 120B	5.2%
#36	OpenAI GPT-5 Mini	5.0%
#37	Grok Grok 4.1 Fast	5.0%
#38	Meta AI Llama 4 Maverick	4.8%
#39	Google Gemini 2.5 Flash Lite	4.6%
#40	OpenAI GPT-4.1	4.6%
#41	Mistral AI Mistral Small 4	4.4%
#42	Meta AI Llama 4 Scout	4.3%
#43	Baidu ERNIE 4.5 300B A47B	3.5%
#44	Amazon Nova 2 Lite	3.0%