ForecastBench가 측정한 예측 정확도 (0~100). Brier Score를 0~100으로 변환한 값으로, 높을수록 미래 사건을 더 정확하게 예측합니다. 실제 예측 시장 문제를 사용해 측정합니다.
출처: ForecastBench| 순위 | 모델 | |
|---|---|---|
| #1 | Grok Grok 4.20 | 61.8 |
| #2 | OpenAI GPT-5 | 61.3 |
| #3 | Anthropic Claude Opus 4 | 60.6 |
| #4 | OpenAI GPT-5 Mini | 60.3 |
| #5 | Anthropic Claude Sonnet 4.5 | 60.2 |
| #6 | Anthropic Claude Opus 4.5 | 60.1 |
| #7 | Gemini 2.5 Pro | 60.1 |
| #8 | Z.ai GLM-5 | 60.1 |
| #9 | Anthropic Claude Opus 4.1 | 60.0 |
| #10 | Anthropic Claude Opus 4.6 | 59.7 |
| #11 | Anthropic Claude Sonnet 4.6 | 59.6 |
| #12 | Anthropic Claude Haiku 4.5 | 58.9 |
| #13 | Anthropic Claude Sonnet 4 | 58.7 |
| #14 | OpenAI GPT-4.1 | 58.6 |
| #15 | Gemini 2.5 Flash | 58.5 |
| #16 | OpenAI GPT-5 Nano | 57.0 |