Note: Overall leaderboard rankings may not reflect true model quality — individual benchmarks give a clearer picture. ARC-Challenge MMLU GPQA GSM8K Artificial Analysis Intelligence Index v4.0

← Back to leaderboard

DROP

12 models

Top 10 Models Performance

tencent/youtu-llm-2b	########################################	86.7
tencent/hy3-preview-base	#######################################	85.5
qwen/qwen3-4b	######################################	82.9
google/gemma-3-27b-pt	####################################	77.2
qwen/qwen3-1.7b	#################################	72.5
google/gemma-3-12b-pt	#################################	72.2
huggingfacetb/smollm3-3b	#################################	72
yandex/gpt-5-lite-pretrain	###############################	67.8
yandex/gpt-5-lite	##############################	65.1
google/gemma-3-4b-pt	############################	60.1

Rank	Model	Score
🥇	tencent/youtu-llm-2b	86.7
🥈	tencent/hy3-preview-base	85.5
🥉	qwen/qwen3-4b	82.9
4	google/gemma-3-27b-pt	77.2
5	qwen/qwen3-1.7b	72.5
6	google/gemma-3-12b-pt	72.2
7	huggingfacetb/smollm3-3b	72
8	yandex/gpt-5-lite-pretrain	67.8
9	yandex/gpt-5-lite	65.1
10	google/gemma-3-4b-pt	60.1
11	google/gemma-3-1b-pt	42.4
12	deepseek-ai/deepseek-r1-distill-qwen-1.5b	41.3

JavaScript enhances filtering and charts. All data is rendered server-side.

View the sitemap for available pages.