Note: Overall leaderboard rankings may not reflect true model quality — individual benchmarks give a clearer picture. ARC-Challenge MMLU GPQA GSM8K Artificial Analysis Intelligence Index v4.0
← Back to leaderboard

Claw-Eval

12 models

Top 10 Models Performance

xiaomi/mimo-v2.5-pro ######################################## 64
inclusionai/ring-2.6-1t ######################################## 63.82
zai-org/glm-5.1 ####################################### 62.7
xiaomi/mimo-v2.5 ####################################### 62.1
moonshotai/kimi-k2.6 ###################################### 61.5
deepseek-ai/deepseek-v4-pro ##################################### 58.4
deepseek-ai/deepseek-v4-flash #################################### 57.8
qwen/qwen3.5-397b-a17b #################################### 57.8
moonshotai/kimi-k2.5 ################################# 52.8
minimaxai/minimax-m2.7 ############################### 49.7
68.8K – 862.0B
Rank Model Score
🥇 xiaomi/mimo-v2.5-pro 64
🥈 inclusionai/ring-2.6-1t 63.82
🥉 zai-org/glm-5.1 62.7
4 xiaomi/mimo-v2.5 62.1
5 moonshotai/kimi-k2.6 61.5
6 deepseek-ai/deepseek-v4-pro 58.4
7 deepseek-ai/deepseek-v4-flash 57.8
8 qwen/qwen3.5-397b-a17b 57.8
9 moonshotai/kimi-k2.5 52.8
10 minimaxai/minimax-m2.7 49.7
11 deepseek-ai/deepseek-v3.2 42.2
12 nvidia/nvidia-nemotron-3-super-120b-a12b 6.8