고난이도 수학 문제 500개로 구성된 벤치마크. 대수학, 기하학, 미적분학 등 다양한 수학 분야를 다룹니다. 점수는 정답률(%)입니다.
출처: Artificial Analysis| 순위 | 모델 | |
|---|---|---|
| #1 | Anthropic Claude Sonnet 4 | 99.1% |
| #2 | Anthropic Claude Opus 4 | 98.2% |
| #3 | Gemini 2.5 Flash | 98.1% |
| #4 | Gemini 2.5 Pro | 96.7% |
| #5 | Baidu ERNIE 4.5 300B A47B | 93.1% |
| #6 | OpenAI GPT-4.1 | 91.3% |
| #7 | Meta AI Llama 4 Maverick | 88.9% |
| #8 | Meta AI Llama 4 Scout | 84.4% |
| #9 | Mistral AI Mistral Small 4 | 56.2% |