Deep Research 评测体系
2026.02Deep Research Agent 的评测方法论与代表性基准,涵盖自动化评测与人类偏好评测两大范式。
评测的挑战
评测 Deep Research Agent 面临三个核心难题:
- 开放式生成——研究型报告没有标准答案,传统的事实检索评测无法反映综合研究能力。
- 长文本评估——一份研究报告可能长达数万字,传统评估方法难以处理。
- 实时性要求——真正的 Deep Research 需要在互联网上实时搜索,静态数据集容易被污染。
DeepResearch Bench:RACE + FACT 双框架
动机:现有评测要么只关注检索能力,要么只关注生成质量,无法衡量端到端的"搜索-分析-写作"综合能力。
数据构建:基于 9.6 万条真实用户查询日志分析需求分布,构建 100 个博士级研究任务(中英各 50,覆盖 22 个领域)。构建流程确保任务来自真实研究需求而非人工臆造。
双框架设计:
- RACE(Reference-based Adaptive Criteria-driven Evaluation):基于参考的、自适应标准驱动的评估框架,评估报告文本质量。四个维度——全面性、洞察力、指令遵循、可读性。核心创新在于"自适应标准":不同领域的研究报告评估标准不同,框架会根据任务领域动态调整评分权重。
- FACT:评估信息检索的真实性,包括引用准确率和有效引用数。每条引用都需要验证:(1) 来源是否真实存在;(2) 引用内容是否准确反映来源信息。
DeepResearch Bench II:Rubric 细粒度评测
动机:DR Bench I 的维度仍然较粗,难以定位 Agent 在哪个具体环节(信息搜集、分析深度、表达结构)表现不足。
方法:将评测粒度细化到 9,430 个评分点(Rubrics),覆盖 132 个任务和 22 个领域。构建流程为"LLM 提取 → 自我评估 → 人工修正 → 专家审核",将报告质量分解为可独立评估的细粒度单元。
三维评测模型:信息召回(是否找到关键事实)、分析(是否有深层见解,而非简单堆砌信息)、表达(格式结构是否清晰)。这种细粒度评测使得对 Agent 能力的诊断从"整体好坏"升级为"哪个维度薄弱"。
LiveResearchBench:实时搜索评测
动机:静态评测集容易被模型在训练中见过(数据污染),且无法反映 Agent 的实时信息获取能力。
设计原则:100 个专家设计的复杂问题,强调三个属性——"以用户为中心"(明确目标受众和格式要求)、"实时搜索"(必须联网获取最新信息)、"任务明确无歧义"(避免评估歧义)。
DeepEval 评估套件:粗粒度评估排版与事实逻辑连贯性,细粒度评估覆盖率、分析深度、引用关联性与准确性。核心设计理念:将评估本身也分层——先快速判断整体质量,再对关键维度做细粒度评估,兼顾效率与深度。
GAIA:通用 AI 助手基准
动机:现有基准要么过于简单(模型已接近饱和),要么只测试单一能力。GAIA 的理念是"对人类简单,对 AI 困难"。
设计:466 个精心设计的问题,人类准确率 92%,配备插件的 GPT-4 仅约 15%。三个难度等级——Level 1 不需工具或少于 5 步;Level 2 需要 5-10 步工具组合;Level 3 需要长序列操作,AI 目前成功率接近 0%。GAIA 侧重推理、工具使用和多模态处理能力而非知识记忆。
Chatbot Arena:人类偏好众包
动机:自动化评测存在与人类真实感受的偏差,需要以人类偏好为金标准。
方法:实时的动态众包评估平台,采用 Bradley-Terry 模型(类似 Elo 积分)进行排名。核心技术包括:高效的自适应采样(主动挑选实力相近的模型对决以提高排名效率)、异常用户检测算法(防止恶意刷榜)、以及从众包数据中提取难题基准。
MT-Bench-101:多轮对话细粒度评测
动机:现有评测主要集中在单轮对话,忽略了真实对话中需要持续记忆、动态调整和主动交互的复杂场景。
三层能力分类体系:
- 感知力——记忆上下文、指代消解、话题切换(模型理解和记忆历史对话的能力)。
- 适应力——格式重述、自我纠错、自我肯定、多轮推理(根据反馈动态调整的能力)。
- 交互力——指令澄清、主动交互(主动与人类互动、提问的能力)。
"最低分原则":取多轮对话中的最低分作为总分,因为真实体验中一步出错就会破坏整体。这种严格打分机制与人类专家判断一致性高达 87%。
评测方法论总结
| 基准 | 评测范式 | 核心创新 |
|---|---|---|
| DeepResearch Bench | 自动化 (LLM-as-Judge) | RACE + FACT 双框架 |
| DR Bench II | 自动化 (细粒度 Rubric) | 9,430 个评分点 |
| LiveResearchBench | 自动化 (实时) | DeepEval 分层评估 |
| GAIA | 自动化 (工具使用) | 三级难度递进 |
| Chatbot Arena | 人类偏好 | 自适应 Elo 排名 |
| MT-Bench-101 | 自动化 (多轮) | 最低分原则 |
参考文献
- Du et al., "DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents", arXiv, 2025.
- Li et al., "DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report", arXiv, 2026.
- Wang et al., "LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild", arXiv, 2025.
- Java et al., "Characterizing Deep Research: A Benchmark and Formal Definition (LiveDRBench)", arXiv, 2025.
- Mialon et al., "GAIA: A Benchmark for General AI Assistants", 2024.
- Chiang et al., "Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference", NeurIPS.
- Bai et al., "MT-Bench-101: A Fine-Grained Benchmark for Evaluating LLMs in Multi-Turn Dialogues", ACL, 2024.