LiveBench 종합

이 벤치마크는?

LiveBench가 측정한 종합 점수 (0~100). 추론·코딩·수학·데이터 분석·언어·지시 따르기 6개 카테고리 평균입니다. 오염 없는 문제를 정기적으로 갱신해 최신 모델을 공정하게 평가합니다.

출처: LiveBench

순위	모델
#1	ChatGPT GPT-5.4	80.9
#2	Google Gemini 3.1 Pro	80.7
#3	Anthropic Claude Opus 4.6	76.8
#4	Qwen Qwen3.6 Plus	70.8
#5	Z.ai GLM-5.1	70.6
#6	Anthropic Claude Sonnet 4.6	70.2
#7	Moonshot AI Kimi K2.5	69.2
#8	Z.ai GLM-5	68.7
#9	MiniMax MiniMax M2.7	65.0
#10	Google Gemma 4 31B	62.4
#11	Google Gemini 3.1 Flash Lite	62.1
#12	ChatGPT GPT-5 Mini	61.0
#13	MiniMax MiniMax M2.5	60.3
#14	Xiaomi MiMo-V2-Pro	58.4
#15	Google Gemini 2.5 Pro	57.5
#16	Google Gemini 3 Flash	54.4
#17	Anthropic Claude Opus 4.5	53.6
#18	Anthropic Claude Sonnet 4.5	51.3
#19	DeepSeek DeepSeek V3.2	49.8
#20	ChatGPT GPT-5 Nano	48.0
#21	Google Gemini 2.5 Flash	46.9
#22	ChatGPT GPT OSS 120B	46.4
#23	Anthropic Claude Haiku 4.5	43.0
#24	Google Gemini 2.5 Flash Lite	41.5
#25	ChatGPT GPT-5.4 Mini	33.9
#26	ChatGPT GPT-5.4 Nano	29.9