도구 사용 능력을 평가하는 에이전트 벤치마크. 실제 사용자 작업을 시뮬레이션한 멀티스텝 태스크에서 AI의 도구 활용 및 계획 능력을 측정합니다. 점수는 태스크 성공률(%)입니다.
Z.ai
GLM-5
Qwen
Qwen3.6 Plus
Moonshot AI
Kimi K2.5
Google
Gemini 3.1 Pro
MiniMax
MiniMax M2.5
Xiaomi
MiMo-V2-Pro
Grok
Grok 4.1 Fast (Reasoning)
Grok 4.20 (Reasoning)
Anthropic
Claude Opus 4.6
Meta AI
Muse Spark
DeepSeek
DeepSeek V3.2
Claude Opus 4.5
OpenAI
GPT-5.4
MiniMax M2.7
Baidu
ERNIE 5.0 Thinking
Qwen3.5 397B A17B
Gemini 3 Flash
Meituan
Longcat Flash Chat
Claude Sonnet 4.6
Claude Sonnet 4.5
Claude Opus 4
Claude Opus 4.1
NVIDIA
Nemotron 3 Super
Claude Sonnet 4
Grok 4.1 Fast
Amazon
Nova 2 Lite
Gemma 4 31B
Grok 4.20
Claude Haiku 4.5
Gemini 2.5 Pro
GPT-5.4 Nano
GPT-4.1
GPT OSS 120B
GPT-5.4 Mini
GPT-5 Mini
Gemini 2.5 Flash
Gemini 3.1 Flash Lite
Gemini 2.5 Flash Lite
GPT-5 Nano
Llama 4 Maverick
Llama 4 Scout
ERNIE 4.5 300B A47B
GPT-5