HLE (Humanity's Last Exam)

このベンチマークについて

人類の最高水準の専門知識を測る最高難度ベンチマーク。50以上の分野の極めて難しい問題で構成されます。スコアは正答率(%)です。

出典: Artificial Analysis

順位	モデル
#1	Google Gemini 3.1 Pro	44.7%
#2	ChatGPT GPT-5.4	41.6%
#3	Meta AI Muse Spark	39.9%
#4	Anthropic Claude Opus 4.6	36.7%
#5	Google Gemini 3 Flash	34.7%
#6	Grok Grok 4.20 (Reasoning)	32.2%
#7	Moonshot AI Kimi K2.5	29.4%
#8	Anthropic Claude Opus 4.5	28.4%
#9	Xiaomi MiMo-V2-Pro	28.3%
#10	MiniMax MiniMax M2.7	28.1%
#11	Z.ai GLM-5	27.2%
#12	Qwen Qwen3.6 Plus	25.7%
#13	Grok Grok 4.20	24.2%
#14	Google Gemma 4 31B	22.7%
#15	DeepSeek DeepSeek V3.2	22.2%
#16	Google Gemini 2.5 Pro	21.1%
#17	NVIDIA Nemotron 3 Super	19.2%
#18	MiniMax MiniMax M2.5	19.1%
#19	Qwen Qwen3.5 397B A17B	18.8%
#20	Grok Grok 4.1 Fast (Reasoning)	17.6%
#21	Anthropic Claude Sonnet 4.5	17.3%
#22	ChatGPT GPT-5.4 Mini	17.1%
#23	Google Gemini 3.1 Flash Lite	16.2%
#24	ChatGPT GPT-5.4 Nano	14.7%
#25	Baidu ERNIE 5.0 Thinking	12.7%
#26	Anthropic Claude Opus 4.1	11.9%
#27	Anthropic Claude Opus 4	11.7%
#28	Google Gemini 2.5 Flash	11.1%
#29	Anthropic Claude Sonnet 4.6	10.8%
#30	Anthropic Claude Haiku 4.5	9.7%
#31	Anthropic Claude Sonnet 4	9.6%
#32	ChatGPT GPT-5 Nano	7.6%
#33	Meituan Longcat Flash Chat	6.0%
#34	ChatGPT GPT-5	5.8%
#35	ChatGPT GPT OSS 120B	5.2%
#36	ChatGPT GPT-5 Mini	5.0%
#37	Grok Grok 4.1 Fast	5.0%
#38	Meta AI Llama 4 Maverick	4.8%
#39	Google Gemini 2.5 Flash Lite	4.6%
#40	ChatGPT GPT-4.1	4.6%
#41	Mistral AI Mistral Small 4	4.4%
#42	Meta AI Llama 4 Scout	4.3%
#43	Baidu ERNIE 4.5 300B A47B	3.5%
#44	Amazon Nova 2 Lite	3.0%