IFBench

7 models

x-ai/grok-4.3	########################################	81
qwen/qwen3.5-27b	######################################	77
zai-org/glm-5	####################################	72.3
nvidia/nvidia-nemotron-3-nano-30b-a3b	###################################	71.5
inception/mercury-2	###################################	71
arcee-ai/trinity-large-thinking	##########################	52.3
qwen/qwen3.5-0.8b	##########	21

Rank	Model	Score
🥇	x-ai/grok-4.3	81
🥈	qwen/qwen3.5-27b	77
🥉	zai-org/glm-5	72.3
4	nvidia/nvidia-nemotron-3-nano-30b-a3b	71.5
5	inception/mercury-2	71
6	arcee-ai/trinity-large-thinking	52.3
7	qwen/qwen3.5-0.8b	21