Note: Overall leaderboard rankings may not reflect true model quality — individual benchmarks give a clearer picture. ARC-Challenge MMLU GPQA GSM8K Artificial Analysis Intelligence Index v4.0
← Back to leaderboard

BigCodeBench

6 models

Top 10 Models Performance

essentialai/rnj-1-instruct ######################################## 57.1
openai/gpt-oss-20b ####################################### 55.7
qwen/qwen3-8b ################################### 50.2
essentialai/rnj-1 ################################# 47.5
qwen/qwen3-8b-base ############################## 42.5
qwen/qwen2.5-coder-7b-instruct ############################# 41
69K – 862.0B
2019 – 2026
Rank Model Score
🥇 essentialai/rnj-1-instruct 57.1
🥈 openai/gpt-oss-20b 55.7
🥉 qwen/qwen3-8b 50.2
4 essentialai/rnj-1 47.5
5 qwen/qwen3-8b-base 42.5
6 qwen/qwen2.5-coder-7b-instruct 41