LeetCode, AtCoder, CodeForces에서 수집한 실제 프로그래밍 대회 문제로 구성된 코딩 벤치마크. 학습 데이터 오염을 방지하기 위해 문제가 지속적으로 업데이트됩니다. 점수는 정답률(%)입니다.
출처: Artificial Analysis| 순위 | 모델 | |
|---|---|---|
| #1 | Gemini 3 Flash | 90.8% |
| #2 | Anthropic Claude Opus 4.5 | 87.1% |
| #3 | DeepSeek DeepSeek V3.2 | 86.2% |
| #4 | Grok Grok 4.1 Fast (Reasoning) | 82.2% |
| #5 | Baidu ERNIE 5.0 Thinking | 81.2% |
| #6 | Gemini 2.5 Pro | 80.1% |
| #7 | OpenAI GPT-5 Nano | 76.3% |
| #8 | Anthropic Claude Sonnet 4.5 | 71.4% |
| #9 | OpenAI GPT OSS 120B | 70.7% |
| #10 | Gemini 2.5 Flash | 69.5% |
| #11 | Anthropic Claude Sonnet 4 | 65.5% |
| #12 | Anthropic Claude Opus 4.1 | 65.4% |
| #13 | Gemini 2.5 Flash Lite | 64.1% |
| #14 | Anthropic Claude Opus 4 | 63.6% |
| #15 | Anthropic Claude Haiku 4.5 | 61.5% |
| #16 | OpenAI GPT-5 Mini | 54.5% |
| #17 | OpenAI GPT-5 | 54.3% |
| #18 | Baidu ERNIE 4.5 300B A47B | 46.7% |
| #19 | OpenAI GPT-4.1 | 45.7% |
| #20 | Grok Grok 4.1 Fast | 39.9% |
| #21 | Meta AI Llama 4 Maverick | 39.7% |
| #22 | Amazon Nova 2 Lite | 34.6% |
| #23 | Meta AI Llama 4 Scout | 29.9% |
| #24 | Mistral AI Mistral Small 4 | 11.1% |