Note: Overall leaderboard rankings may not reflect true model quality — individual benchmarks give a clearer picture. ARC-Challenge MMLU GPQA GSM8K Artificial Analysis Intelligence Index v4.0

← Back to leaderboard

Claw-Eval

12 models

Top 10 Models Performance

xiaomi/mimo-v2.5-pro	########################################	64
inclusionai/ring-2.6-1t	########################################	63.82
zai-org/glm-5.1	#######################################	62.7
xiaomi/mimo-v2.5	#######################################	62.1
moonshotai/kimi-k2.6	######################################	61.5
deepseek-ai/deepseek-v4-pro	#####################################	58.4
deepseek-ai/deepseek-v4-flash	####################################	57.8
qwen/qwen3.5-397b-a17b	####################################	57.8
moonshotai/kimi-k2.5	#################################	52.8
minimaxai/minimax-m2.7	###############################	49.7

Rank	Model	Score
🥇	xiaomi/mimo-v2.5-pro	64
🥈	inclusionai/ring-2.6-1t	63.82
🥉	zai-org/glm-5.1	62.7
4	xiaomi/mimo-v2.5	62.1
5	moonshotai/kimi-k2.6	61.5
6	deepseek-ai/deepseek-v4-pro	58.4
7	deepseek-ai/deepseek-v4-flash	57.8
8	qwen/qwen3.5-397b-a17b	57.8
9	moonshotai/kimi-k2.5	52.8
10	minimaxai/minimax-m2.7	49.7
11	deepseek-ai/deepseek-v3.2	42.2
12	nvidia/nvidia-nemotron-3-super-120b-a12b	6.8

JavaScript enhances filtering and charts. All data is rendered server-side.

View the sitemap for available pages.