TAU2

このベンチマークについて

実際のユーザータスクをシミュレートしたマルチステップタスクにおけるツール活用・計画能力を測るエージェントベンチマーク。スコアは成功率(%)です。

出典: Artificial Analysis