Claude Opus 4.5, SWE-bench 리더보드 1위 등극
- •Anthropic의 Claude Opus 4.5가 2026년 2월 SWE-bench Verified 리더보드에서 1위를 차지했다.
- •미니맥스(MiniMax) M2.5와 GLM-5 등 중국의 인공지능 모델들이 구글과 OpenAI에 필적하는 강력한 성능을 입증했다.
- •OpenAI의 GPT-5.2는 종합 6위에 머물렀으며, 코딩 특화 모델인 GPT-5.3-Codex는 현재 순위에 진입하지 못했다.
소프트웨어 엔지니어링 벤치마크인 SWE-bench가 최근 리더보드를 업데이트하며, 실험실 데이터의 편향에서 벗어나 모델 성능을 객관적으로 조명할 수 있는 기회를 제공했다. 이번 평가는 실제 오픈소스 리포지토리에서 추출한 500개의 코딩 과제를 엄선한 'SWE-bench Verified'의 'Bash Only' 트랙을 통해 진행되었다. 그 결과, 기존 서구권 기술 대기업들이 신흥 글로벌 연구소들의 거센 도전에 직면하며 AI 업계의 지형도가 급격히 변화하고 있음이 확인되었다.
가장 놀라운 점은 Anthropic의 Claude Opus 4.5가 후속 모델인 Opus 4.6을 근소한 차이로 따돌리고 1위를 차지했다는 사실이다. 그 뒤를 구글의 Gemini 3 Flash와 2,290억 개의 매개변수를 갖춘 중국의 MiniMax M2.5가 바짝 추격하고 있다. 특히 GLM-5, Kimi K2.5, DeepSeek V3.2 등 다수의 중국계 모델이 10위권에 대거 포진하며, 전문 코딩 지능과 자율적 문제 해결 능력 분야에서 서구권과의 기술 격차를 빠르게 좁히고 있음을 증명했다.
반면 OpenAI의 성적은 기대보다 저조했다. GPT-5.2가 6위에 이름을 올리는 데 그쳤는데, 분석가들은 프로그래밍 전용 모델인 GPT-5.3-Codex가 아직 표준 API를 통해 제공되지 않아 순위에서 제외된 것으로 보고 있다. 벤치마크 팀은 평가의 형평성을 기하기 위해 모든 모델에 동일한 시스템 프롬프트를 적용했다. 이를 통해 프롬프트 엔지니어링에 따른 변수를 차단하고, 모델이 보유한 순수 추론 능력만을 정밀하게 측정할 수 있었다.
개발자들이 복잡한 코드 관리를 위해 코딩 에이전트에 의존하는 비중이 늘어남에 따라, 이와 같은 독립적인 검증의 중요성은 더욱 커지고 있다. Django나 Scikit-learn 등 실제 프로젝트의 결함을 해결하는 과정을 직접 측정함으로써, 실제 운영 환경에서의 활용 가능성을 객관적으로 제시하기 때문이다. 이처럼 엄격한 평가와 실용적인 응용의 결합은 자율 개발 어시스턴트가 실질적인 도구로 진화하는 과정에서 유의미한 이정표를 세운 것으로 평가받는다.