AIME 2025

このベンチマークについて

2025年のAIMEに基づくベンチマーク。高校レベルをはるかに超える数学的推論を要求します。スコアは正答率(%)です。

出典: Artificial Analysis

順位	モデル
#1	Google Gemini 3 Flash	97.0%
#2	DeepSeek DeepSeek V3.2	92.0%
#3	Anthropic Claude Opus 4.5	91.3%
#4	Grok Grok 4.1 Fast (Reasoning)	89.3%
#5	Anthropic Claude Sonnet 4.5	88.0%
#6	Google Gemini 2.5 Pro	87.7%
#7	Baidu ERNIE 5.0 Thinking	85.0%
#8	Anthropic Claude Haiku 4.5	83.7%
#9	Anthropic Claude Opus 4.1	80.3%
#10	ChatGPT GPT-5 Nano	78.3%
#11	Anthropic Claude Sonnet 4	74.3%
#12	Anthropic Claude Opus 4	73.3%
#13	Google Gemini 2.5 Flash	73.3%
#14	ChatGPT GPT OSS 120B	66.7%
#15	ChatGPT GPT-5	48.3%
#16	Google Gemini 2.5 Flash Lite	46.7%
#17	ChatGPT GPT-5 Mini	46.7%
#18	Baidu ERNIE 4.5 300B A47B	41.3%
#19	ChatGPT GPT-4.1	34.7%
#20	Grok Grok 4.1 Fast	34.3%
#21	Amazon Nova 2 Lite	33.7%
#22	Meta AI Llama 4 Maverick	19.3%
#23	Meta AI Llama 4 Scout	14.0%