Note: Overall leaderboard rankings may not reflect true model quality — individual benchmarks give a clearer picture. ARC-Challenge MMLU GPQA GSM8K Artificial Analysis Intelligence Index v4.0
← Back to leaderboard

SimulBench

5 models

Top 10 Models Performance

openai/gpt-4 ######################################## 8.74
meta-llama/meta-llama-3-70b-instruct ####################################### 8.61
openai/gpt-4o ####################################### 8.59
qwen/qwen1.5-110b-chat ###################################### 8.3
qwen/qwen1.5-7b-chat ################################### 7.55
68.8K – 862.0B
Rank Model Score
🥇 openai/gpt-4 8.74
🥈 meta-llama/meta-llama-3-70b-instruct 8.61
🥉 openai/gpt-4o 8.59
4 qwen/qwen1.5-110b-chat 8.3
5 qwen/qwen1.5-7b-chat 7.55