Note: Overall leaderboard rankings may not reflect true model quality — individual benchmarks give a clearer picture. ARC-Challenge MMLU GPQA GSM8K Artificial Analysis Intelligence Index v4.0
← Back to leaderboard

DROP

12 models

Top 10 Models Performance

tencent/youtu-llm-2b ######################################## 86.7
tencent/hy3-preview-base ####################################### 85.5
qwen/qwen3-4b ###################################### 82.9
google/gemma-3-27b-pt #################################### 77.2
qwen/qwen3-1.7b ################################# 72.5
google/gemma-3-12b-pt ################################# 72.2
huggingfacetb/smollm3-3b ################################# 72
yandex/gpt-5-lite-pretrain ############################### 67.8
yandex/gpt-5-lite ############################## 65.1
google/gemma-3-4b-pt ############################ 60.1
69K – 862.0B
2019 – 2026
Rank Model Score
🥇 tencent/youtu-llm-2b 86.7
🥈 tencent/hy3-preview-base 85.5
🥉 qwen/qwen3-4b 82.9
4 google/gemma-3-27b-pt 77.2
5 qwen/qwen3-1.7b 72.5
6 google/gemma-3-12b-pt 72.2
7 huggingfacetb/smollm3-3b 72
8 yandex/gpt-5-lite-pretrain 67.8
9 yandex/gpt-5-lite 65.1
10 google/gemma-3-4b-pt 60.1
11 google/gemma-3-1b-pt 42.4
12 deepseek-ai/deepseek-r1-distill-qwen-1.5b 41.3