Note: Overall leaderboard rankings may not reflect true model quality — individual benchmarks give a clearer picture. ARC-Challenge MMLU GPQA GSM8K Artificial Analysis Intelligence Index v4.0

← Back to leaderboard

Dr. Bench

11 models

A Multidimensional Evaluation for Deep Research Agents

Top 10 Models Performance

moonshotai/kimi-k2-thinking	########################################	67.07
openai/o3	#####################################	61.76
x-ai/grok-4	#####################################	61.3
openai/o4-mini	##################################	56.66
openai/gpt-5	#################################	55.6
google/gemini-2.5-pro	#################################	55.06
openai/gpt-4o	#############################	49.45
openai/gpt-4.1	############################	47.62
anthropic/claude-opus-4.1	###########################	45.59
anthropic/claude-sonnet-4	###########################	44.91

Rank	Model	Score
🥇	moonshotai/kimi-k2-thinking	67.07
🥈	openai/o3	61.76
🥉	x-ai/grok-4	61.3
4	openai/o4-mini	56.66
5	openai/gpt-5	55.6
6	google/gemini-2.5-pro	55.06
7	openai/gpt-4o	49.45
8	openai/gpt-4.1	47.62
9	anthropic/claude-opus-4.1	45.59
10	anthropic/claude-sonnet-4	44.91
11	anthropic/claude-3.7-sonnet	39.96

JavaScript enhances filtering and charts. All data is rendered server-side.

View the sitemap for available pages.