AIME 2025

이 벤치마크는?

미국 수학 올림피아드 초청 시험(AIME) 2025 문제 기반 벤치마크. 고등학교 수준을 훨씬 넘는 수학적 추론과 창의성을 요구합니다. 점수는 정답률(%)입니다.

출처: Artificial Analysis

순위	모델
#1	Google Gemini 3 Flash	97.0%
#2	DeepSeek DeepSeek V3.2	92.0%
#3	Anthropic Claude Opus 4.5	91.3%
#4	Grok Grok 4.1 Fast (Reasoning)	89.3%
#5	Anthropic Claude Sonnet 4.5	88.0%
#6	Google Gemini 2.5 Pro	87.7%
#7	Baidu ERNIE 5.0 Thinking	85.0%
#8	Anthropic Claude Haiku 4.5	83.7%
#9	Anthropic Claude Opus 4.1	80.3%
#10	OpenAI GPT-5 Nano	78.3%
#11	Anthropic Claude Sonnet 4	74.3%
#12	Anthropic Claude Opus 4	73.3%
#13	Google Gemini 2.5 Flash	73.3%
#14	OpenAI GPT OSS 120B	66.7%
#15	OpenAI GPT-5	48.3%
#16	Google Gemini 2.5 Flash Lite	46.7%
#17	OpenAI GPT-5 Mini	46.7%
#18	Baidu ERNIE 4.5 300B A47B	41.3%
#19	OpenAI GPT-4.1	34.7%
#20	Grok Grok 4.1 Fast	34.3%
#21	Amazon Nova 2 Lite	33.7%
#22	Meta AI Llama 4 Maverick	19.3%
#23	Meta AI Llama 4 Scout	14.0%