수학, 물리, 화학, 생물학 등 과학 분야의 연구 수준 코딩 문제로 구성된 벤치마크. 실제 과학 연구에서 사용되는 수준의 코드 작성 능력을 평가합니다. 점수는 정답률(%)입니다.
Google
Gemini 3.1 Pro
OpenAI
GPT-5.4
Anthropic
Claude Opus 4.6
Meta AI
Muse Spark
Gemini 3 Flash
Claude Opus 4.5
Moonshot AI
Kimi K2.5
MiniMax
MiniMax M2.7
Z.ai
GLM-5
Grok
Grok 4.20 (Reasoning)
Claude Sonnet 4.5
GPT-5.4 Mini
Grok 4.1 Fast (Reasoning)
Claude Sonnet 4.6
Gemma 4 31B
Claude Haiku 4.5
Gemini 2.5 Pro
MiniMax M2.5
Xiaomi
MiMo-V2-Pro
Gemini 3.1 Flash Lite
Qwen
Qwen3.5 397B A17B
Claude Opus 4.1
Qwen3.6 Plus
Claude Sonnet 4
Claude Opus 4
Gemini 2.5 Flash
DeepSeek
DeepSeek V3.2
GPT-5.4 Nano
GPT-4.1
GPT-5
Baidu
ERNIE 5.0 Thinking
GPT-5 Mini
GPT OSS 120B
NVIDIA
Nemotron 3 Super
GPT-5 Nano
Llama 4 Maverick
Grok 4.20
ERNIE 4.5 300B A47B
Grok 4.1 Fast
Gemini 2.5 Flash Lite
Meituan
Longcat Flash Chat
Amazon
Nova 2 Lite
Llama 4 Scout
Mistral AI
Mistral Small 4