ForecastBenchが測定した予測精度(0〜100)。Brierスコアを0〜100に変換した値で、高いほど将来の出来事をより正確に予測します。
出典: ForecastBench| 順位 | モデル | |
|---|---|---|
| #1 | Grok Grok 4.20 | 61.8 |
| #2 | ChatGPT GPT-5 | 61.3 |
| #3 | Anthropic Claude Opus 4 | 60.6 |
| #4 | ChatGPT GPT-5 Mini | 60.3 |
| #5 | Anthropic Claude Sonnet 4.5 | 60.2 |
| #6 | Anthropic Claude Opus 4.5 | 60.1 |
| #7 | Gemini 2.5 Pro | 60.1 |
| #8 | Z.ai GLM-5 | 60.1 |
| #9 | Anthropic Claude Opus 4.1 | 60.0 |
| #10 | Anthropic Claude Opus 4.6 | 59.7 |
| #11 | Anthropic Claude Sonnet 4.6 | 59.6 |
| #12 | Anthropic Claude Haiku 4.5 | 58.9 |
| #13 | Anthropic Claude Sonnet 4 | 58.7 |
| #14 | ChatGPT GPT-4.1 | 58.6 |
| #15 | Gemini 2.5 Flash | 58.5 |
| #16 | ChatGPT GPT-5 Nano | 57.0 |