TAU2

이 벤치마크는?

도구 사용 능력을 평가하는 에이전트 벤치마크. 실제 사용자 작업을 시뮬레이션한 멀티스텝 태스크에서 AI의 도구 활용 및 계획 능력을 측정합니다. 점수는 태스크 성공률(%)입니다.

출처: Artificial Analysis