SciCode

このベンチマークについて

数学・物理・化学・生物学の研究レベルのコーディング問題で構成されるベンチマーク。スコアは正答率(%)です。

出典: Artificial Analysis

順位	モデル
#1	Google Gemini 3.1 Pro	58.9%
#2	ChatGPT GPT-5.4	56.6%
#3	Anthropic Claude Opus 4.6	51.9%
#4	Meta AI Muse Spark	51.5%
#5	Google Gemini 3 Flash	50.6%
#6	Anthropic Claude Opus 4.5	49.5%
#7	Moonshot AI Kimi K2.5	49.0%
#8	MiniMax MiniMax M2.7	47.0%
#9	Z.ai GLM-5	46.2%
#10	Grok Grok 4.20 (Reasoning)	45.6%
#11	Anthropic Claude Sonnet 4.5	44.7%
#12	ChatGPT GPT-5.4 Mini	44.2%
#13	Grok Grok 4.1 Fast (Reasoning)	44.2%
#14	Anthropic Claude Sonnet 4.6	44.1%
#15	Google Gemma 4 31B	43.4%
#16	Anthropic Claude Haiku 4.5	43.3%
#17	Google Gemini 2.5 Pro	42.8%
#18	MiniMax MiniMax M2.5	42.6%
#19	Xiaomi MiMo-V2-Pro	42.5%
#20	Google Gemini 3.1 Flash Lite	41.9%
#21	Qwen Qwen3.5 397B A17B	41.1%
#22	Anthropic Claude Opus 4.1	40.9%
#23	Qwen Qwen3.6 Plus	40.7%
#24	Anthropic Claude Sonnet 4	40.0%
#25	Anthropic Claude Opus 4	39.8%
#26	Google Gemini 2.5 Flash	39.4%
#27	DeepSeek DeepSeek V3.2	38.9%
#28	ChatGPT GPT-5.4 Nano	38.4%
#29	ChatGPT GPT-4.1	38.1%
#30	ChatGPT GPT-5	37.8%
#31	Baidu ERNIE 5.0 Thinking	37.5%
#32	ChatGPT GPT-5 Mini	36.9%
#33	ChatGPT GPT OSS 120B	36.0%
#34	NVIDIA Nemotron 3 Super	36.0%
#35	ChatGPT GPT-5 Nano	33.8%
#36	Meta AI Llama 4 Maverick	33.1%
#37	Grok Grok 4.20	32.8%
#38	Baidu ERNIE 4.5 300B A47B	31.5%
#39	Grok Grok 4.1 Fast	29.6%
#40	Google Gemini 2.5 Flash Lite	28.5%
#41	Meituan Longcat Flash Chat	28.4%
#42	Amazon Nova 2 Lite	24.0%
#43	Meta AI Llama 4 Scout	17.0%
#44	Mistral AI Mistral Small 4	13.4%