Arena 지시 따르기 Elo

Name: Arena 지시 따르기 Elo
Creator: KnowAI Space
License: https://www.gnu.org/licenses/gpl-3.0.html

이 벤치마크는?

지시 따르기 프롬프트에서의 사용자 선호도를 집계한 Arena Elo 점수입니다.

순위	모델
#1	Anthropic Claude Opus 4.6	1512
#2	Google Gemini 3.1 Pro	1490
#3	OpenAI GPT-5.4	1486
#4	OpenAI GPT-5.4 Pro	1486
#5	Anthropic Claude Opus 4.5	1485
#6	Anthropic Claude Sonnet 4.6	1478
#7	Grok Grok 4.20	1465
#8	Grok Grok 4.20 (Reasoning)	1465
#9	Anthropic Claude Sonnet 4.5	1463
#10	Z.ai GLM-5.1	1461
#11	Anthropic Claude Opus 4.1	1459
#12	Google Gemini 3 Flash	1459
#13	OpenAI GPT-5.4 Mini	1453
#14	Google Gemma 4 31B	1452
#15	Z.ai GLM-5	1448
#16	Xiaomi MiMo-V2-Pro	1448
#17	Google Gemini 2.5 Pro	1442
#18	Anthropic Claude Opus 4	1442
#19	Moonshot AI Kimi K2.5	1442
#20	Baidu ERNIE 5.0 Thinking	1432
#21	Qwen Qwen3.5 397B A17B	1431
#22	DeepSeek DeepSeek V3.2	1420
#23	Meituan Longcat Flash Chat	1414
#24	Anthropic Claude Sonnet 4	1414
#25	Google Gemini 3.1 Flash Lite	1412
#26	Anthropic Claude Haiku 4.5	1411
#27	OpenAI GPT-5	1409
#28	Google Gemini 2.5 Flash	1403
#29	MiniMax MiniMax M2.5	1403
#30	Grok Grok 4.1 Fast	1400
#31	Grok Grok 4.1 Fast (Reasoning)	1400
#32	MiniMax MiniMax M2.7	1392
#33	OpenAI GPT-5.4 Nano	1388
#34	OpenAI GPT-5 Mini	1374
#35	Arcee AI Trinity Large Thinking	1372
#36	Google Gemini 2.5 Flash Lite	1365
#37	Amazon Nova 2 Lite	1332
#38	OpenAI GPT OSS 120B	1326
#39	OpenAI GPT-5 Nano	1325
#40	Meta AI Llama 4 Maverick	1313
#41	Meta AI Llama 4 Scout	1298
#42	OpenAI GPT-4.1	1293