LCR (Long Context Recall)

이 벤치마크는?

긴 문서 내에서 특정 정보를 정확히 찾아내는 능력을 평가하는 벤치마크. 모델의 긴 컨텍스트 처리 및 검색 능력을 측정합니다. 점수는 정답률(%)입니다.

출처: Artificial Analysis

순위	모델
#1	Anthropic Claude Opus 4.5	74.0%
#2	OpenAI GPT-5.4	74.0%
#3	Google Gemini 3.1 Pro	72.7%
#4	Anthropic Claude Opus 4.6	70.7%
#5	Anthropic Claude Haiku 4.5	70.3%
#6	Meta AI Muse Spark	69.7%
#7	Qwen Qwen3.6 Plus	69.7%
#8	MiniMax MiniMax M2.7	68.7%
#9	Grok Grok 4.1 Fast (Reasoning)	68.0%
#10	Anthropic Claude Opus 4.1	66.3%
#11	Google Gemini 3 Flash	66.3%
#12	Google Gemini 2.5 Pro	66.0%
#13	MiniMax MiniMax M2.5	66.0%
#14	Anthropic Claude Sonnet 4.5	65.7%
#15	Google Gemini 3.1 Flash Lite	65.3%
#16	Moonshot AI Kimi K2.5	65.3%
#17	DeepSeek DeepSeek V3.2	65.0%
#18	Anthropic Claude Sonnet 4	64.7%
#19	OpenAI GPT-5	63.7%
#20	Z.ai GLM-5	63.3%
#21	Google Gemma 4 31B	62.0%
#22	Google Gemini 2.5 Flash	61.7%
#23	OpenAI GPT-5.4 Mini	61.3%
#24	OpenAI GPT-4.1	61.0%
#25	Xiaomi MiMo-V2-Pro	60.7%
#26	NVIDIA Nemotron 3 Super	60.0%
#27	Anthropic Claude Sonnet 4.6	58.7%
#28	Grok Grok 4.20 (Reasoning)	58.0%
#29	Qwen Qwen3.5 397B A17B	58.0%
#30	OpenAI GPT-5.4 Nano	57.3%
#31	Google Gemini 2.5 Flash Lite	48.0%
#32	Meta AI Llama 4 Maverick	46.0%
#33	OpenAI GPT OSS 120B	43.7%
#34	OpenAI GPT-5 Nano	40.0%
#35	OpenAI GPT-5 Mini	35.7%
#36	Anthropic Claude Opus 4	33.7%
#37	Meta AI Llama 4 Scout	25.8%
#38	Meituan Longcat Flash Chat	25.7%
#39	Grok Grok 4.1 Fast	22.0%
#40	Amazon Nova 2 Lite	17.7%
#41	Grok Grok 4.20	17.3%
#42	Baidu ERNIE 5.0 Thinking	6.7%
#43	Baidu ERNIE 4.5 300B A47B	2.3%