인류 최고 수준의 전문 지식을 측정하도록 설계된 최고 난이도 벤치마크. 수학, 과학, 공학 등 50개 이상 분야의 극도로 어려운 문제들로 구성됩니다. 점수는 정답률(%)입니다.
Google
Gemini 3.1 Pro
OpenAI
GPT-5.4
Meta AI
Muse Spark
Anthropic
Claude Opus 4.6
Gemini 3 Flash
Grok
Grok 4.20 (Reasoning)
Moonshot AI
Kimi K2.5
Claude Opus 4.5
Xiaomi
MiMo-V2-Pro
MiniMax
MiniMax M2.7
Z.ai
GLM-5
Qwen
Qwen3.6 Plus
Grok 4.20
Gemma 4 31B
DeepSeek
DeepSeek V3.2
Gemini 2.5 Pro
NVIDIA
Nemotron 3 Super
MiniMax M2.5
Qwen3.5 397B A17B
Grok 4.1 Fast (Reasoning)
Claude Sonnet 4.5
GPT-5.4 Mini
Gemini 3.1 Flash Lite
GPT-5.4 Nano
Baidu
ERNIE 5.0 Thinking
Claude Opus 4.1
Claude Opus 4
Gemini 2.5 Flash
Claude Sonnet 4.6
Claude Haiku 4.5
Claude Sonnet 4
GPT-5 Nano
Meituan
Longcat Flash Chat
GPT-5
GPT OSS 120B
GPT-5 Mini
Grok 4.1 Fast
Llama 4 Maverick
Gemini 2.5 Flash Lite
GPT-4.1
Mistral AI
Mistral Small 4
Llama 4 Scout
ERNIE 4.5 300B A47B
Amazon
Nova 2 Lite