LiveBench 종합

이 벤치마크는?

LiveBench가 측정한 종합 점수 (0~100). 추론·코딩·수학·데이터 분석·언어·지시 따르기 6개 카테고리 평균입니다. 오염 없는 문제를 정기적으로 갱신해 최신 모델을 공정하게 평가합니다.

출처: LiveBench