LiveBench エージェンティックコーディング

このベンチマークについて

LiveBenchエージェンティックコーディングカテゴリスコア(0〜100)。自律的なコード生成・修正・テストなどのマルチステップコーディング能力を評価します。

出典: LiveBench