TAU2

이 벤치마크는?

도구 사용 능력을 평가하는 에이전트 벤치마크. 실제 사용자 작업을 시뮬레이션한 멀티스텝 태스크에서 AI의 도구 활용 및 계획 능력을 측정합니다. 점수는 태스크 성공률(%)입니다.

출처: Artificial Analysis

순위	모델
#1	Z.ai GLM-5	98.2%
#2	Qwen Qwen3.6 Plus	97.7%
#3	Moonshot AI Kimi K2.5	95.9%
#4	Google Gemini 3.1 Pro	95.6%
#5	MiniMax MiniMax M2.5	95.3%
#6	Xiaomi MiMo-V2-Pro	95.0%
#7	Grok Grok 4.1 Fast (Reasoning)	93.3%
#8	Grok Grok 4.20 (Reasoning)	93.0%
#9	Anthropic Claude Opus 4.6	92.1%
#10	Meta AI Muse Spark	91.5%
#11	DeepSeek DeepSeek V3.2	90.6%
#12	Anthropic Claude Opus 4.5	89.5%
#13	OpenAI GPT-5.4	87.1%
#14	MiniMax MiniMax M2.7	84.8%
#15	Baidu ERNIE 5.0 Thinking	83.9%
#16	Qwen Qwen3.5 397B A17B	83.9%
#17	Google Gemini 3 Flash	80.4%
#18	Meituan Longcat Flash Chat	79.5%
#19	Anthropic Claude Sonnet 4.6	78.9%
#20	Anthropic Claude Sonnet 4.5	78.1%
#21	Anthropic Claude Opus 4	73.4%
#22	Anthropic Claude Opus 4.1	71.4%
#23	NVIDIA Nemotron 3 Super	67.8%
#24	Anthropic Claude Sonnet 4	64.6%
#25	Grok Grok 4.1 Fast	63.7%
#26	Amazon Nova 2 Lite	62.0%
#27	Google Gemma 4 31B	59.9%
#28	Grok Grok 4.20	59.9%
#29	Anthropic Claude Haiku 4.5	54.7%
#30	Google Gemini 2.5 Pro	54.1%
#31	OpenAI GPT-5.4 Nano	52.6%
#32	OpenAI GPT-4.1	47.1%
#33	OpenAI GPT OSS 120B	45.0%
#34	OpenAI GPT-5.4 Mini	36.5%
#35	OpenAI GPT-5 Mini	31.9%
#36	Google Gemini 2.5 Flash	31.6%
#37	Google Gemini 3.1 Flash Lite	31.3%
#38	Google Gemini 2.5 Flash Lite	30.4%
#39	OpenAI GPT-5 Nano	30.4%
#40	Meta AI Llama 4 Maverick	17.8%
#41	Meta AI Llama 4 Scout	15.5%
#42	Baidu ERNIE 4.5 300B A47B	0.0%
#43	OpenAI GPT-5	0.0%