AA Coding Index

About This Benchmark

A composite coding capability score by Artificial Analysis. Aggregates LiveCodeBench, SWE-bench, Aider, and other real-world coding benchmarks.

Source: Artificial Analysis

Rank	Model
#1	ChatGPT GPT-5.4	57.3
#2	Google Gemini 3.1 Pro	55.5
#3	Anthropic Claude Opus 4.6	48.1
#4	Anthropic Claude Opus 4.5	47.8
#5	Meta AI Muse Spark	47.5
#6	Z.ai GLM-5	44.2
#7	Anthropic Claude Sonnet 4.6	43.0
#8	Qwen Qwen3.6 Plus	42.9
#9	Google Gemini 3 Flash	42.6
#10	MiniMax MiniMax M2.7	41.9
#11	Xiaomi MiMo-V2-Pro	41.4
#12	Grok Grok 4.20 (Reasoning)	40.5
#13	Moonshot AI Kimi K2.5	39.5
#14	Google Gemma 4 31B	38.7
#15	Anthropic Claude Sonnet 4.5	38.6
#16	ChatGPT GPT-5.4 Mini	37.5
#17	MiniMax MiniMax M2.5	37.4
#18	Qwen Qwen3.5 397B A17B	37.4
#19	DeepSeek DeepSeek V3.2	36.7
#20	Anthropic Claude Opus 4.1	36.5
#21	ChatGPT GPT-5.4 Nano	35.0
#22	Anthropic Claude Sonnet 4	34.1
#23	Anthropic Claude Opus 4	34.0
#24	Anthropic Claude Haiku 4.5	32.6
#25	Google Gemini 2.5 Pro	31.9
#26	NVIDIA Nemotron 3 Super	31.2
#27	Grok Grok 4.1 Fast (Reasoning)	30.9
#28	Google Gemini 3.1 Flash Lite	30.1
#29	Baidu ERNIE 5.0 Thinking	29.2
#30	ChatGPT GPT-5 Nano	22.9
#31	Google Gemini 2.5 Flash	22.2
#32	Grok Grok 4.20	22.0
#33	ChatGPT GPT-5 Mini	21.9
#34	ChatGPT GPT-4.1	21.8
#35	ChatGPT GPT-5	21.2
#36	Grok Grok 4.1 Fast	19.5
#37	Meituan Longcat Flash Chat	16.5
#38	Meta AI Llama 4 Maverick	15.6
#39	ChatGPT GPT OSS 120B	15.5
#40	Baidu ERNIE 4.5 300B A47B	14.5
#41	Google Gemini 2.5 Flash Lite	14.5
#42	Amazon Nova 2 Lite	12.5
#43	Meta AI Llama 4 Scout	6.7