LiveCodeBench

이 벤치마크는?

LeetCode, AtCoder, CodeForces에서 수집한 실제 프로그래밍 대회 문제로 구성된 코딩 벤치마크. 학습 데이터 오염을 방지하기 위해 문제가 지속적으로 업데이트됩니다. 점수는 정답률(%)입니다.

출처: Artificial Analysis

순위	모델
#1	Google Gemini 3 Flash	90.8%
#2	Anthropic Claude Opus 4.5	87.1%
#3	DeepSeek DeepSeek V3.2	86.2%
#4	Grok Grok 4.1 Fast (Reasoning)	82.2%
#5	Baidu ERNIE 5.0 Thinking	81.2%
#6	Google Gemini 2.5 Pro	80.1%
#7	OpenAI GPT-5 Nano	76.3%
#8	Anthropic Claude Sonnet 4.5	71.4%
#9	OpenAI GPT OSS 120B	70.7%
#10	Google Gemini 2.5 Flash	69.5%
#11	Anthropic Claude Sonnet 4	65.5%
#12	Anthropic Claude Opus 4.1	65.4%
#13	Google Gemini 2.5 Flash Lite	64.1%
#14	Anthropic Claude Opus 4	63.6%
#15	Anthropic Claude Haiku 4.5	61.5%
#16	OpenAI GPT-5 Mini	54.5%
#17	OpenAI GPT-5	54.3%
#18	Baidu ERNIE 4.5 300B A47B	46.7%
#19	OpenAI GPT-4.1	45.7%
#20	Grok Grok 4.1 Fast	39.9%
#21	Meta AI Llama 4 Maverick	39.7%
#22	Amazon Nova 2 Lite	34.6%
#23	Meta AI Llama 4 Scout	29.9%
#24	Mistral AI Mistral Small 4	11.1%