LiveBench가 측정한 종합 점수 (0~100). 추론·코딩·수학·데이터 분석·언어·지시 따르기 6개 카테고리 평균입니다. 오염 없는 문제를 정기적으로 갱신해 최신 모델을 공정하게 평가합니다.
출처: LiveBench| 순위 | 모델 | |
|---|---|---|
| #1 | ChatGPT GPT-5.4 | 80.9 |
| #2 | Gemini 3.1 Pro | 80.7 |
| #3 | Anthropic Claude Opus 4.6 | 76.8 |
| #4 | Qwen Qwen3.6 Plus | 70.8 |
| #5 | Z.ai GLM-5.1 | 70.6 |
| #6 | Anthropic Claude Sonnet 4.6 | 70.2 |
| #7 | Moonshot AI Kimi K2.5 | 69.2 |
| #8 | Z.ai GLM-5 | 68.7 |
| #9 | MiniMax MiniMax M2.7 | 65.0 |
| #10 | Gemma 4 31B | 62.4 |
| #11 | Gemini 3.1 Flash Lite | 62.1 |
| #12 | ChatGPT GPT-5 Mini | 61.0 |
| #13 | MiniMax MiniMax M2.5 | 60.3 |
| #14 | Xiaomi MiMo-V2-Pro | 58.4 |
| #15 | Gemini 2.5 Pro | 57.5 |
| #16 | Gemini 3 Flash | 54.4 |
| #17 | Anthropic Claude Opus 4.5 | 53.6 |
| #18 | Anthropic Claude Sonnet 4.5 | 51.3 |
| #19 | DeepSeek DeepSeek V3.2 | 49.8 |
| #20 | ChatGPT GPT-5 Nano | 48.0 |
| #21 | Gemini 2.5 Flash | 46.9 |
| #22 | ChatGPT GPT OSS 120B | 46.4 |
| #23 | Anthropic Claude Haiku 4.5 | 43.0 |
| #24 | Gemini 2.5 Flash Lite | 41.5 |
| #25 | ChatGPT GPT-5.4 Mini | 33.9 |
| #26 | ChatGPT GPT-5.4 Nano | 29.9 |