TerminalBench Hard

이 벤치마크는?

실제 터미널 환경에서 AI 에이전트가 복잡한 셸 명령, 파일 조작, 시스템 작업을 수행하는 능력을 평가하는 Hard 난이도 벤치마크. 점수는 성공률(%)입니다.

출처: Artificial Analysis

순위	모델
#1	OpenAI GPT-5.4	57.6%
#2	Google Gemini 3.1 Pro	53.8%
#3	Anthropic Claude Opus 4.5	47.0%
#4	Anthropic Claude Opus 4.6	46.2%
#5	Meta AI Muse Spark	45.5%
#6	Qwen Qwen3.6 Plus	43.9%
#7	Z.ai GLM-5	43.2%
#8	Anthropic Claude Sonnet 4.6	42.4%
#9	Xiaomi MiMo-V2-Pro	40.9%
#10	MiniMax MiniMax M2.7	39.4%
#11	Google Gemini 3 Flash	38.6%
#12	Grok Grok 4.20 (Reasoning)	37.9%
#13	Google Gemma 4 31B	36.4%
#14	Anthropic Claude Sonnet 4.5	35.6%
#15	DeepSeek DeepSeek V3.2	35.6%
#16	Qwen Qwen3.5 397B A17B	35.6%
#17	Moonshot AI Kimi K2.5	34.8%
#18	MiniMax MiniMax M2.5	34.8%
#19	Anthropic Claude Opus 4.1	34.3%
#20	OpenAI GPT-5.4 Mini	34.1%
#21	OpenAI GPT-5.4 Nano	33.3%
#22	Anthropic Claude Opus 4	31.1%
#23	Anthropic Claude Sonnet 4	31.1%
#24	NVIDIA Nemotron 3 Super	28.8%
#25	Anthropic Claude Haiku 4.5	27.3%
#26	Google Gemini 2.5 Pro	26.5%
#27	Baidu ERNIE 5.0 Thinking	25.0%
#28	Google Gemini 3.1 Flash Lite	24.2%
#29	Grok Grok 4.1 Fast (Reasoning)	24.2%
#30	OpenAI GPT-5 Nano	17.4%
#31	Grok Grok 4.20	16.7%
#32	OpenAI GPT-5 Mini	14.4%
#33	Grok Grok 4.1 Fast	14.4%
#34	Google Gemini 2.5 Flash	13.6%
#35	OpenAI GPT-4.1	13.6%
#36	OpenAI GPT-5	12.9%
#37	Meituan Longcat Flash Chat	10.6%
#38	Google Gemini 2.5 Flash Lite	7.6%
#39	Meta AI Llama 4 Maverick	6.8%
#40	Amazon Nova 2 Lite	6.8%
#41	Baidu ERNIE 4.5 300B A47B	6.1%
#42	OpenAI GPT OSS 120B	5.3%
#43	Meta AI Llama 4 Scout	1.5%