SciCode

이 벤치마크는?

수학, 물리, 화학, 생물학 등 과학 분야의 연구 수준 코딩 문제로 구성된 벤치마크. 실제 과학 연구에서 사용되는 수준의 코드 작성 능력을 평가합니다. 점수는 정답률(%)입니다.

출처: Artificial Analysis

순위	모델
#1	Google Gemini 3.1 Pro	58.9%
#2	OpenAI GPT-5.4	56.6%
#3	Anthropic Claude Opus 4.6	51.9%
#4	Meta AI Muse Spark	51.5%
#5	Google Gemini 3 Flash	50.6%
#6	Anthropic Claude Opus 4.5	49.5%
#7	Moonshot AI Kimi K2.5	49.0%
#8	MiniMax MiniMax M2.7	47.0%
#9	Z.ai GLM-5	46.2%
#10	Grok Grok 4.20 (Reasoning)	45.6%
#11	Anthropic Claude Sonnet 4.5	44.7%
#12	OpenAI GPT-5.4 Mini	44.2%
#13	Grok Grok 4.1 Fast (Reasoning)	44.2%
#14	Anthropic Claude Sonnet 4.6	44.1%
#15	Google Gemma 4 31B	43.4%
#16	Anthropic Claude Haiku 4.5	43.3%
#17	Google Gemini 2.5 Pro	42.8%
#18	MiniMax MiniMax M2.5	42.6%
#19	Xiaomi MiMo-V2-Pro	42.5%
#20	Google Gemini 3.1 Flash Lite	41.9%
#21	Qwen Qwen3.5 397B A17B	41.1%
#22	Anthropic Claude Opus 4.1	40.9%
#23	Qwen Qwen3.6 Plus	40.7%
#24	Anthropic Claude Sonnet 4	40.0%
#25	Anthropic Claude Opus 4	39.8%
#26	Google Gemini 2.5 Flash	39.4%
#27	DeepSeek DeepSeek V3.2	38.9%
#28	OpenAI GPT-5.4 Nano	38.4%
#29	OpenAI GPT-4.1	38.1%
#30	OpenAI GPT-5	37.8%
#31	Baidu ERNIE 5.0 Thinking	37.5%
#32	OpenAI GPT-5 Mini	36.9%
#33	OpenAI GPT OSS 120B	36.0%
#34	NVIDIA Nemotron 3 Super	36.0%
#35	OpenAI GPT-5 Nano	33.8%
#36	Meta AI Llama 4 Maverick	33.1%
#37	Grok Grok 4.20	32.8%
#38	Baidu ERNIE 4.5 300B A47B	31.5%
#39	Grok Grok 4.1 Fast	29.6%
#40	Google Gemini 2.5 Flash Lite	28.5%
#41	Meituan Longcat Flash Chat	28.4%
#42	Amazon Nova 2 Lite	24.0%
#43	Meta AI Llama 4 Scout	17.0%
#44	Mistral AI Mistral Small 4	13.4%