LiveBenchエージェンティックコーディングカテゴリスコア(0〜100)。自律的なコード生成・修正・テストなどのマルチステップコーディング能力を評価します。
出典: LiveBench| 順位 | モデル | |
|---|---|---|
| #1 | ChatGPT GPT-5.4 | 70.0 |
| #2 | Gemini 3.1 Pro | 65.0 |
| #3 | Anthropic Claude Sonnet 4.6 | 63.3 |
| #4 | Anthropic Claude Opus 4.6 | 61.7 |
| #5 | Z.ai GLM-5 | 55.0 |
| #6 | Z.ai GLM-5.1 | 55.0 |
| #7 | Qwen Qwen3.6 Plus | 55.0 |
| #8 | MiniMax MiniMax M2.5 | 51.7 |
| #9 | Anthropic Claude Opus 4.5 | 50.0 |
| #10 | MiniMax MiniMax M2.7 | 50.0 |
| #11 | Anthropic Claude Sonnet 4.5 | 48.3 |
| #12 | Moonshot AI Kimi K2.5 | 48.3 |
| #13 | DeepSeek DeepSeek V3.2 | 46.7 |
| #14 | Gemini 3 Flash | 43.3 |
| #15 | Gemma 4 31B | 40.0 |
| #16 | ChatGPT GPT-5 Mini | 35.0 |
| #17 | Anthropic Claude Haiku 4.5 | 33.3 |
| #18 | Gemini 2.5 Pro | 33.3 |
| #19 | Gemini 3.1 Flash Lite | 33.3 |
| #20 | Xiaomi MiMo-V2-Pro | 30.0 |
| #21 | ChatGPT GPT-5 Nano | 28.3 |
| #22 | ChatGPT GPT-5.4 Nano | 27.1 |
| #23 | ChatGPT GPT-5.4 Mini | 17.0 |
| #24 | Gemini 2.5 Flash | 16.7 |
| #25 | ChatGPT GPT OSS 120B | 16.7 |
| #26 | Gemini 2.5 Flash Lite | 5.0 |