IFBench

このベンチマークについて

形式・長さ・スタイルなど様々な制約を含む複雑な指示をどれだけ忠実に実行できるかを評価するベンチマーク。スコアは遵守率(%)です。

出典: Artificial Analysis

順位	モデル
#1	Grok Grok 4.20 (Reasoning)	81.2%
#2	Google Gemini 3 Flash	78.0%
#3	Google Gemini 3.1 Flash Lite	77.2%
#4	Google Gemini 3.1 Pro	77.1%
#5	Meta AI Muse Spark	75.9%
#6	MiniMax MiniMax M2.7	75.7%
#7	Google Gemma 4 31B	75.6%
#8	Qwen Qwen3.6 Plus	75.2%
#9	ChatGPT GPT-5.4	73.9%
#10	Z.ai GLM-5	72.3%
#11	MiniMax MiniMax M2.5	71.6%
#12	NVIDIA Nemotron 3 Super	71.5%
#13	Moonshot AI Kimi K2.5	70.2%
#14	Xiaomi MiMo-V2-Pro	68.8%
#15	ChatGPT GPT-5 Nano	65.9%
#16	ChatGPT GPT-5.4 Mini	64.8%
#17	ChatGPT GPT-5.4 Nano	64.4%
#18	DeepSeek DeepSeek V3.2	60.7%
#19	ChatGPT GPT OSS 120B	58.3%
#20	Anthropic Claude Opus 4.5	58.0%
#21	Anthropic Claude Sonnet 4.5	57.3%
#22	Anthropic Claude Opus 4.1	55.4%
#23	Anthropic Claude Sonnet 4	54.7%
#24	Anthropic Claude Haiku 4.5	54.3%
#25	Anthropic Claude Opus 4	53.7%
#26	Anthropic Claude Opus 4.6	53.1%
#27	Grok Grok 4.1 Fast (Reasoning)	52.7%
#28	Qwen Qwen3.5 397B A17B	51.6%
#29	Google Gemini 2.5 Flash	50.3%
#30	Grok Grok 4.20	49.3%
#31	Google Gemini 2.5 Pro	48.7%
#32	ChatGPT GPT-5 Mini	45.6%
#33	ChatGPT GPT-5	45.0%
#34	Meituan Longcat Flash Chat	43.1%
#35	ChatGPT GPT-4.1	43.0%
#36	Meta AI Llama 4 Maverick	43.0%
#37	Anthropic Claude Sonnet 4.6	42.4%
#38	Google Gemini 2.5 Flash Lite	41.8%
#39	Baidu ERNIE 5.0 Thinking	41.4%
#40	Amazon Nova 2 Lite	40.5%
#41	Meta AI Llama 4 Scout	39.5%
#42	Baidu ERNIE 4.5 300B A47B	39.1%
#43	Grok Grok 4.1 Fast	36.5%