긴 문서 내에서 특정 정보를 정확히 찾아내는 능력을 평가하는 벤치마크. 모델의 긴 컨텍스트 처리 및 검색 능력을 측정합니다. 점수는 정답률(%)입니다.
Anthropic
Claude Opus 4.5
OpenAI
GPT-5.4
Google
Gemini 3.1 Pro
Claude Opus 4.6
Claude Haiku 4.5
Meta AI
Muse Spark
Qwen
Qwen3.6 Plus
MiniMax
MiniMax M2.7
Grok
Grok 4.1 Fast (Reasoning)
Claude Opus 4.1
Gemini 3 Flash
Gemini 2.5 Pro
MiniMax M2.5
Claude Sonnet 4.5
Gemini 3.1 Flash Lite
Moonshot AI
Kimi K2.5
DeepSeek
DeepSeek V3.2
Claude Sonnet 4
GPT-5
Z.ai
GLM-5
Gemma 4 31B
Gemini 2.5 Flash
GPT-5.4 Mini
GPT-4.1
Xiaomi
MiMo-V2-Pro
NVIDIA
Nemotron 3 Super
Claude Sonnet 4.6
Grok 4.20 (Reasoning)
Qwen3.5 397B A17B
GPT-5.4 Nano
Gemini 2.5 Flash Lite
Llama 4 Maverick
GPT OSS 120B
GPT-5 Nano
GPT-5 Mini
Claude Opus 4
Llama 4 Scout
Meituan
Longcat Flash Chat
Grok 4.1 Fast
Amazon
Nova 2 Lite
Grok 4.20
Baidu
ERNIE 5.0 Thinking
ERNIE 4.5 300B A47B