TerminalBench Hard

Name: TerminalBench Hard
Creator: KnowAI Space
License: https://www.gnu.org/licenses/gpl-3.0.html

About This Benchmark

A hard-level benchmark evaluating AI agents' ability to execute complex shell commands, file operations, and system tasks in a real terminal environment. Score is success rate (%).

Source: Artificial Analysis

Rank	Model
#1	ChatGPT GPT-5.4	57.6%
#2	Google Gemini 3.1 Pro	53.8%
#3	Anthropic Claude Opus 4.5	47.0%
#4	Anthropic Claude Opus 4.6	46.2%
#5	Meta AI Muse Spark	45.5%
#6	Qwen Qwen3.6 Plus	43.9%
#7	Z.ai GLM-5	43.2%
#8	Anthropic Claude Sonnet 4.6	42.4%
#9	Xiaomi MiMo-V2-Pro	40.9%
#10	MiniMax MiniMax M2.7	39.4%
#11	Google Gemini 3 Flash	38.6%
#12	Grok Grok 4.20 (Reasoning)	37.9%
#13	Google Gemma 4 31B	36.4%
#14	Anthropic Claude Sonnet 4.5	35.6%
#15	DeepSeek DeepSeek V3.2	35.6%
#16	Qwen Qwen3.5 397B A17B	35.6%
#17	Moonshot AI Kimi K2.5	34.8%
#18	MiniMax MiniMax M2.5	34.8%
#19	Anthropic Claude Opus 4.1	34.3%
#20	ChatGPT GPT-5.4 Mini	34.1%
#21	ChatGPT GPT-5.4 Nano	33.3%
#22	Anthropic Claude Opus 4	31.1%
#23	Anthropic Claude Sonnet 4	31.1%
#24	NVIDIA Nemotron 3 Super	28.8%
#25	Anthropic Claude Haiku 4.5	27.3%
#26	Google Gemini 2.5 Pro	26.5%
#27	Baidu ERNIE 5.0 Thinking	25.0%
#28	Google Gemini 3.1 Flash Lite	24.2%
#29	Grok Grok 4.1 Fast (Reasoning)	24.2%
#30	ChatGPT GPT-5 Nano	17.4%
#31	Grok Grok 4.20	16.7%
#32	ChatGPT GPT-5 Mini	14.4%
#33	Grok Grok 4.1 Fast	14.4%
#34	Google Gemini 2.5 Flash	13.6%
#35	ChatGPT GPT-4.1	13.6%
#36	ChatGPT GPT-5	12.9%
#37	Meituan Longcat Flash Chat	10.6%
#38	Google Gemini 2.5 Flash Lite	7.6%
#39	Meta AI Llama 4 Maverick	6.8%
#40	Amazon Nova 2 Lite	6.8%
#41	Baidu ERNIE 4.5 300B A47B	6.1%
#42	ChatGPT GPT OSS 120B	5.3%
#43	Meta AI Llama 4 Scout	1.5%