GPQA Diamond

이 벤치마크는?

대학원 수준의 전문 지식을 측정하는 다지선다형 벤치마크. 생물학, 화학, 물리학 분야 전문가도 어려워하는 문제들로 구성됩니다. 점수는 정답률(%)입니다.

출처: Artificial Analysis

순위	모델
#1	Google Gemini 3.1 Pro	94.1%
#2	OpenAI GPT-5.4	92.0%
#3	Grok Grok 4.20 (Reasoning)	91.1%
#4	Google Gemini 3 Flash	89.8%
#5	Anthropic Claude Opus 4.6	89.6%
#6	Meta AI Muse Spark	88.4%
#7	Qwen Qwen3.6 Plus	88.2%
#8	Moonshot AI Kimi K2.5	87.9%
#9	MiniMax MiniMax M2.7	87.4%
#10	Xiaomi MiMo-V2-Pro	87.0%
#11	Anthropic Claude Opus 4.5	86.6%
#12	Qwen Qwen3.5 397B A17B	86.1%
#13	Google Gemma 4 31B	85.7%
#14	Grok Grok 4.1 Fast (Reasoning)	85.3%
#15	MiniMax MiniMax M2.5	84.8%
#16	Google Gemini 2.5 Pro	84.4%
#17	DeepSeek DeepSeek V3.2	84.0%
#18	Anthropic Claude Sonnet 4.5	83.4%
#19	OpenAI GPT-5.4 Mini	82.3%
#20	Google Gemini 3.1 Flash Lite	82.2%
#21	Z.ai GLM-5	82.0%
#22	Baidu ERNIE 4.5 300B A47B	81.1%
#23	Anthropic Claude Opus 4.1	80.9%
#24	NVIDIA Nemotron 3 Super	80.0%
#25	Anthropic Claude Sonnet 4.6	79.7%
#26	Anthropic Claude Opus 4	79.6%
#27	Google Gemini 2.5 Flash	79.0%
#28	Anthropic Claude Sonnet 4	77.7%
#29	Baidu ERNIE 5.0 Thinking	77.7%
#30	Grok Grok 4.20	77.6%
#31	OpenAI GPT-5.4 Nano	76.1%
#32	OpenAI GPT-5 Mini	68.7%
#33	OpenAI GPT-5	68.6%
#34	Anthropic Claude Haiku 4.5	67.2%
#35	OpenAI GPT OSS 120B	67.2%
#36	Meta AI Llama 4 Maverick	67.1%
#37	OpenAI GPT-5 Nano	67.0%
#38	OpenAI GPT-4.1	66.6%
#39	Google Gemini 2.5 Flash Lite	65.1%
#40	Grok Grok 4.1 Fast	63.7%
#41	Meituan Longcat Flash Chat	63.6%
#42	Amazon Nova 2 Lite	60.3%
#43	Meta AI Llama 4 Scout	58.7%
#44	Mistral AI Mistral Small 4	30.2%