Dr. Bench
11 models
A Multidimensional Evaluation for Deep Research Agents
Top 10 Models Performance
| moonshotai/kimi-k2-thinking | ######################################## | 67.07 |
| openai/o3 | ##################################### | 61.76 |
| x-ai/grok-4 | ##################################### | 61.3 |
| openai/o4-mini | ################################## | 56.66 |
| openai/gpt-5 | ################################# | 55.6 |
| google/gemini-2.5-pro | ################################# | 55.06 |
| openai/gpt-4o | ############################# | 49.45 |
| openai/gpt-4.1 | ############################ | 47.62 |
| anthropic/claude-opus-4.1 | ########################### | 45.59 |
| anthropic/claude-sonnet-4 | ########################### | 44.91 |
| Rank | Model | Score |
|---|---|---|
| 🥇 | moonshotai/kimi-k2-thinking | 67.07 |
| 🥈 | openai/o3 | 61.76 |
| 🥉 | x-ai/grok-4 | 61.3 |
| 4 | openai/o4-mini | 56.66 |
| 5 | openai/gpt-5 | 55.6 |
| 6 | google/gemini-2.5-pro | 55.06 |
| 7 | openai/gpt-4o | 49.45 |
| 8 | openai/gpt-4.1 | 47.62 |
| 9 | anthropic/claude-opus-4.1 | 45.59 |
| 10 | anthropic/claude-sonnet-4 | 44.91 |
| 11 | anthropic/claude-3.7-sonnet | 39.96 |