미국 수학 올림피아드 초청 시험(AIME) 2025 문제 기반 벤치마크. 고등학교 수준을 훨씬 넘는 수학적 추론과 창의성을 요구합니다. 점수는 정답률(%)입니다.
출처: Artificial Analysis| 순위 | 모델 | |
|---|---|---|
| #1 | Gemini 3 Flash | 97.0% |
| #2 | DeepSeek DeepSeek V3.2 | 92.0% |
| #3 | Anthropic Claude Opus 4.5 | 91.3% |
| #4 | Grok Grok 4.1 Fast (Reasoning) | 89.3% |
| #5 | Anthropic Claude Sonnet 4.5 | 88.0% |
| #6 | Gemini 2.5 Pro | 87.7% |
| #7 | Baidu ERNIE 5.0 Thinking | 85.0% |
| #8 | Anthropic Claude Haiku 4.5 | 83.7% |
| #9 | Anthropic Claude Opus 4.1 | 80.3% |
| #10 | OpenAI GPT-5 Nano | 78.3% |
| #11 | Anthropic Claude Sonnet 4 | 74.3% |
| #12 | Anthropic Claude Opus 4 | 73.3% |
| #13 | Gemini 2.5 Flash | 73.3% |
| #14 | OpenAI GPT OSS 120B | 66.7% |
| #15 | OpenAI GPT-5 | 48.3% |
| #16 | Gemini 2.5 Flash Lite | 46.7% |
| #17 | OpenAI GPT-5 Mini | 46.7% |
| #18 | Baidu ERNIE 4.5 300B A47B | 41.3% |
| #19 | OpenAI GPT-4.1 | 34.7% |
| #20 | Grok Grok 4.1 Fast | 34.3% |
| #21 | Amazon Nova 2 Lite | 33.7% |
| #22 | Meta AI Llama 4 Maverick | 19.3% |
| #23 | Meta AI Llama 4 Scout | 14.0% |