LiveBench エージェンティックコーディング

このベンチマークについて

LiveBenchエージェンティックコーディングカテゴリスコア（0〜100）。自律的なコード生成・修正・テストなどのマルチステップコーディング能力を評価します。

出典: LiveBench

順位	モデル
#1	ChatGPT GPT-5.4	70.0
#2	Google Gemini 3.1 Pro	65.0
#3	Anthropic Claude Sonnet 4.6	63.3
#4	Anthropic Claude Opus 4.6	61.7
#5	Z.ai GLM-5	55.0
#6	Z.ai GLM-5.1	55.0
#7	Qwen Qwen3.6 Plus	55.0
#8	MiniMax MiniMax M2.5	51.7
#9	Anthropic Claude Opus 4.5	50.0
#10	MiniMax MiniMax M2.7	50.0
#11	Anthropic Claude Sonnet 4.5	48.3
#12	Moonshot AI Kimi K2.5	48.3
#13	DeepSeek DeepSeek V3.2	46.7
#14	Google Gemini 3 Flash	43.3
#15	Google Gemma 4 31B	40.0
#16	ChatGPT GPT-5 Mini	35.0
#17	Anthropic Claude Haiku 4.5	33.3
#18	Google Gemini 2.5 Pro	33.3
#19	Google Gemini 3.1 Flash Lite	33.3
#20	Xiaomi MiMo-V2-Pro	30.0
#21	ChatGPT GPT-5 Nano	28.3
#22	ChatGPT GPT-5.4 Nano	27.1
#23	ChatGPT GPT-5.4 Mini	17.0
#24	Google Gemini 2.5 Flash	16.7
#25	ChatGPT GPT OSS 120B	16.7
#26	Google Gemini 2.5 Flash Lite	5.0