Note: Overall leaderboard rankings may not reflect true model quality — individual benchmarks give a clearer picture. ARC-Challenge MMLU GPQA GSM8K Artificial Analysis Intelligence Index v4.0
← Back to leaderboard

MATH-500

15 models

Top 10 Models Performance

nvidia/nvidia-nemotron-nano-9b-v2 ######################################## 97.8
tiiuae/falcon-h1r-7b ######################################## 97.4
qwen/qwen3-8b ####################################### 96.3
nvidia/nvidia-nemotron-3-nano-4b ####################################### 95.4
qwen/qwen3-4b ####################################### 95
tencent/youtu-llm-2b ###################################### 93.7
huggingfacetb/smollm3-3b ###################################### 91.8
openbmb/minicpm5-1b ##################################### 91.6
qwen/qwen3-1.7b ##################################### 89.8
liquid/lfm-2.5-8b-a1b #################################### 88.76
69K – 862.0B
2019 – 2026
Rank Model Score
🥇 nvidia/nvidia-nemotron-nano-9b-v2 97.8
🥈 tiiuae/falcon-h1r-7b 97.4
🥉 qwen/qwen3-8b 96.3
4 nvidia/nvidia-nemotron-3-nano-4b 95.4
5 qwen/qwen3-4b 95
6 tencent/youtu-llm-2b 93.7
7 huggingfacetb/smollm3-3b 91.8
8 openbmb/minicpm5-1b 91.6
9 qwen/qwen3-1.7b 89.8
10 liquid/lfm-2.5-8b-a1b 88.76
11 deepseek-ai/deepseek-r1-distill-qwen-1.5b 84.8
12 tiiuae/falcon-h1-1.5b-deep-instruct 77.8
13 tiiuae/falcon-h1-1.5b-instruct 74
14 google/gemma-3-4b-it 36.4
15 viesar/gemma-3-4b-opus-reasoning-distill 29.6