Note: Overall leaderboard rankings may not reflect true model quality — individual benchmarks give a clearer picture. ARC-Challenge MMLU GPQA GSM8K Artificial Analysis Intelligence Index v4.0
← Back to leaderboard

Dr. Bench

11 models

A Multidimensional Evaluation for Deep Research Agents

Top 10 Models Performance

moonshotai/kimi-k2-thinking ######################################## 67.07
openai/o3 ##################################### 61.76
x-ai/grok-4 ##################################### 61.3
openai/o4-mini ################################## 56.66
openai/gpt-5 ################################# 55.6
google/gemini-2.5-pro ################################# 55.06
openai/gpt-4o ############################# 49.45
openai/gpt-4.1 ############################ 47.62
anthropic/claude-opus-4.1 ########################### 45.59
anthropic/claude-sonnet-4 ########################### 44.91
69K – 862.0B
2019 – 2026
Rank Model Score
🥇 moonshotai/kimi-k2-thinking 67.07
🥈 openai/o3 61.76
🥉 x-ai/grok-4 61.3
4 openai/o4-mini 56.66
5 openai/gpt-5 55.6
6 google/gemini-2.5-pro 55.06
7 openai/gpt-4o 49.45
8 openai/gpt-4.1 47.62
9 anthropic/claude-opus-4.1 45.59
10 anthropic/claude-sonnet-4 44.91
11 anthropic/claude-3.7-sonnet 39.96