Note: Overall leaderboard rankings may not reflect true model quality — individual benchmarks give a clearer picture. ARC-Challenge MMLU GPQA GSM8K Artificial Analysis Intelligence Index
← Back to leaderboard

IFBench

7 models

Top 10 Models Performance

x-ai/grok-4.3 ######################################## 81
qwen/qwen3.5-27b ###################################### 77
zai-org/glm-5 #################################### 72.3
nvidia/nvidia-nemotron-3-nano-30b-a3b ################################### 71.5
inception/mercury-2 ################################### 71
arcee-ai/trinity-large-thinking ########################## 52.3
qwen/qwen3.5-0.8b ########## 21
Rank Model Score
🥇 x-ai/grok-4.3 81
🥈 qwen/qwen3.5-27b 77
🥉 zai-org/glm-5 72.3
4 nvidia/nvidia-nemotron-3-nano-30b-a3b 71.5
5 inception/mercury-2 71
6 arcee-ai/trinity-large-thinking 52.3
7 qwen/qwen3.5-0.8b 21