AI 벤치마크, 지금 뭐가 문제?
著者: KnowAI Team·2026年4月22日 (水)

어떤 AI가 가장 똑똑할까요?
오늘은 AI의 지능과 다양한 능력을 측정하는 AI들의 “수능시험”인 벤치마크에 대해서 알아봅시다.
벤치마크가 뭐예요?
벤치마크는 “AI가 보는 표준 시험”입니다.
우리도 실력을 잴 때 수능이나 TOEIC을 보잖아요.
AI도 똑같아요. 정해진 문제 세트를 풀게 하고, 몇 점 맞았는지 재는 거죠.
예를 들면 “미국 변호사 시험 문제를 몇 % 맞혔나?”
→ 이게 MMLU 같은 유명 벤치마크의 기본 구조입니다.
어떤 종류가 있을까요?
벤치마크는 “무엇을 시험하느냐”로 나뉩니다.
- 지식: 역사·과학·법
- 추론: 단계별 사고
- 수학: 계산·증명
- 코딩: 프로그래밍
- 에이전트: 여러 단계의 복잡한 작업
- 사용자 투표: 사람이 A·B 직접 비교
요즘 주목받는 건 ④~⑥이에요.
2026 유명한 벤치마크
- MMLU: 57개 과목 객관식 — AI계의 수능
- GPQA Diamond: 박사급 과학 — 구글로도 못 풀게 설계됐어요
- HumanEval: Python 함수 짜기 — 코딩 표준
- SWE-bench: 실제 오픈소스 버그 고치기 — 실전 코딩
- HLE (일명 = 인류 최후의 시험): 전문가가 만든 극한 난도 2,500문제
각자 시험 방식이 완전히 다릅니다.
문제 ①: “다 90점대로 수렴해요”
상향평준화(포화) — 2026년 최대 이슈입니다.
- MMLU: 상위 모델 전부 88~99%. 1~2점 차이는 통계 오차 수준이에요
- HumanEval: 91~95%
- AIME 2025: 96~98%
“누가 1등?”이 의미를 잃고 있어요.
네이처지 논문도 “최상위 모델은 더 이상 구별 불가”라고 확인했습니다.
문제 ②: “문제가 유출됐을 수도”
점수가 높아도 못 믿는 이유, 하나 더 있습니다.
데이터 오염: 벤치마크 문제가 AI 학습 데이터에 이미 섞여 들어갔을 가능성이에요.
→ 진짜 실력이 아니라 “외웠을 뿐”일 수도 있다는 뜻이죠.
2026년 한 연구에선 벤치마크 60개 중 절반 가까이 포화 상태였습니다.
그래서 뭘 봐야 할까요?
업계가 찾고 있는 답은 3가지입니다.
- 더 어려운 시험 — HLE: 상위 모델도 30~50%대
- 계속 바뀌는 문제 — LiveCodeBench: 매주 새 문제 추가
- 사람이 직접 투표 — Chatbot Arena: 사용자가 A vs B 고르기
공통점은 “외워서는 못 이기게” 만든다는 거죠.
진짜 실력을 다시 재는 방향으로 진화 중이에요.
모델 고를 때, 뭘 봐야 할까요?
핵심만 다시 정리해 드립니다.
- 단일 점수는 전체 실력을 말해주지 않아요
- 최신·미포화 벤치마크를 교차 확인해야 합니다
- 내 용도(코딩? 글쓰기? 검색?)에 맞는 벤치마크가 진짜 중요해요
여러 벤치마크를 한 곳에서 비교하고 싶다면 벤치마크 페이지에서 확인해 보세요.
→ http://knowai.space/benchmarks
출처
오늘 내용은 다음 자료를 참고했습니다.
- Kili Technology — AI Benchmarks 2026
- Stanford HAI — AI Benchmarks Hit Saturation
- arXiv — When AI Benchmarks Plateau
- Vellum AI — LLM Leaderboard 2026
- BenchLM — LLM Benchmarking Guide