SimulBench

5 models

openai/gpt-4	########################################	8.74
meta-llama/meta-llama-3-70b-instruct	#######################################	8.61
openai/gpt-4o	#######################################	8.59
qwen/qwen1.5-110b-chat	######################################	8.3
qwen/qwen1.5-7b-chat	###################################	7.55

Rank	Model	Score
🥇	openai/gpt-4	8.74
🥈	meta-llama/meta-llama-3-70b-instruct	8.61
🥉	openai/gpt-4o	8.59
4	qwen/qwen1.5-110b-chat	8.3
5	qwen/qwen1.5-7b-chat	7.55