AA Math Index

이 벤치마크는?

Artificial Analysis가 산출하는 수학 역량 종합 지수. AIME, MATH-500 등 수학 추론 벤치마크를 종합합니다.

출처: Artificial Analysis

순위	모델
#1	Google Gemini 3 Flash	97.0
#2	DeepSeek DeepSeek V3.2	92.0
#3	Anthropic Claude Opus 4.5	91.3
#4	Grok Grok 4.1 Fast (Reasoning)	89.3
#5	Anthropic Claude Sonnet 4.5	88.0
#6	Google Gemini 2.5 Pro	87.7
#7	Baidu ERNIE 5.0 Thinking	85.0
#8	Anthropic Claude Haiku 4.5	83.7
#9	Anthropic Claude Opus 4.1	80.3
#10	OpenAI GPT-5 Nano	78.3
#11	Anthropic Claude Sonnet 4	74.3
#12	Anthropic Claude Opus 4	73.3
#13	Google Gemini 2.5 Flash	73.3
#14	OpenAI GPT OSS 120B	66.7
#15	OpenAI GPT-5	48.3
#16	Google Gemini 2.5 Flash Lite	46.7
#17	OpenAI GPT-5 Mini	46.7
#18	Baidu ERNIE 4.5 300B A47B	41.3
#19	OpenAI GPT-4.1	34.7
#20	Grok Grok 4.1 Fast	34.3
#21	Amazon Nova 2 Lite	33.7
#22	Meta AI Llama 4 Maverick	19.3
#23	Meta AI Llama 4 Scout	14.0