Deep Research 评测体系

2026.02

Deep Research Agent 的评测方法论与代表性基准，涵盖自动化评测与人类偏好评测两大范式。

评测的挑战

评测 Deep Research Agent 面临三个核心难题：

开放式生成——研究型报告没有标准答案，传统的事实检索评测无法反映综合研究能力。
长文本评估——一份研究报告可能长达数万字，传统评估方法难以处理。
实时性要求——真正的 Deep Research 需要在互联网上实时搜索，静态数据集容易被污染。

DeepResearch Bench：RACE + FACT 双框架

动机：现有评测要么只关注检索能力，要么只关注生成质量，无法衡量端到端的"搜索-分析-写作"综合能力。

数据构建：基于 9.6 万条真实用户查询日志分析需求分布，构建 100 个博士级研究任务（中英各 50，覆盖 22 个领域）。构建流程确保任务来自真实研究需求而非人工臆造。

双框架设计：

RACE（Reference-based Adaptive Criteria-driven Evaluation）：基于参考的、自适应标准驱动的评估框架，评估报告文本质量。四个维度——全面性、洞察力、指令遵循、可读性。核心创新在于"自适应标准"：不同领域的研究报告评估标准不同，框架会根据任务领域动态调整评分权重。
FACT：评估信息检索的真实性，包括引用准确率和有效引用数。每条引用都需要验证：(1) 来源是否真实存在；(2) 引用内容是否准确反映来源信息。

DeepResearch Bench II：Rubric 细粒度评测

动机：DR Bench I 的维度仍然较粗，难以定位 Agent 在哪个具体环节（信息搜集、分析深度、表达结构）表现不足。

方法：将评测粒度细化到 9,430 个评分点（Rubrics），覆盖 132 个任务和 22 个领域。构建流程为"LLM 提取 → 自我评估 → 人工修正 → 专家审核"，将报告质量分解为可独立评估的细粒度单元。

三维评测模型：信息召回（是否找到关键事实）、分析（是否有深层见解，而非简单堆砌信息）、表达（格式结构是否清晰）。这种细粒度评测使得对 Agent 能力的诊断从"整体好坏"升级为"哪个维度薄弱"。

LiveResearchBench：实时搜索评测

动机：静态评测集容易被模型在训练中见过（数据污染），且无法反映 Agent 的实时信息获取能力。

设计原则：100 个专家设计的复杂问题，强调三个属性——"以用户为中心"（明确目标受众和格式要求）、"实时搜索"（必须联网获取最新信息）、"任务明确无歧义"（避免评估歧义）。

DeepEval 评估套件：粗粒度评估排版与事实逻辑连贯性，细粒度评估覆盖率、分析深度、引用关联性与准确性。核心设计理念：将评估本身也分层——先快速判断整体质量，再对关键维度做细粒度评估，兼顾效率与深度。

GAIA：通用 AI 助手基准

动机：现有基准要么过于简单（模型已接近饱和），要么只测试单一能力。GAIA 的理念是"对人类简单，对 AI 困难"。

设计：466 个精心设计的问题，人类准确率 92%，配备插件的 GPT-4 仅约 15%。三个难度等级——Level 1 不需工具或少于 5 步；Level 2 需要 5-10 步工具组合；Level 3 需要长序列操作，AI 目前成功率接近 0%。GAIA 侧重推理、工具使用和多模态处理能力而非知识记忆。

Chatbot Arena：人类偏好众包

动机：自动化评测存在与人类真实感受的偏差，需要以人类偏好为金标准。

方法：实时的动态众包评估平台，采用 Bradley-Terry 模型（类似 Elo 积分）进行排名。核心技术包括：高效的自适应采样（主动挑选实力相近的模型对决以提高排名效率）、异常用户检测算法（防止恶意刷榜）、以及从众包数据中提取难题基准。

MT-Bench-101：多轮对话细粒度评测

动机：现有评测主要集中在单轮对话，忽略了真实对话中需要持续记忆、动态调整和主动交互的复杂场景。

三层能力分类体系：

感知力——记忆上下文、指代消解、话题切换（模型理解和记忆历史对话的能力）。
适应力——格式重述、自我纠错、自我肯定、多轮推理（根据反馈动态调整的能力）。
交互力——指令澄清、主动交互（主动与人类互动、提问的能力）。

"最低分原则"：取多轮对话中的最低分作为总分，因为真实体验中一步出错就会破坏整体。这种严格打分机制与人类专家判断一致性高达 87%。

评测方法论总结

基准	评测范式	核心创新
DeepResearch Bench	自动化 (LLM-as-Judge)	RACE + FACT 双框架
DR Bench II	自动化 (细粒度 Rubric)	9,430 个评分点
LiveResearchBench	自动化 (实时)	DeepEval 分层评估
GAIA	自动化 (工具使用)	三级难度递进
Chatbot Arena	人类偏好	自适应 Elo 排名
MT-Bench-101	自动化 (多轮)	最低分原则

参考文献

Du et al., "DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents", arXiv, 2025.
Li et al., "DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report", arXiv, 2026.
Wang et al., "LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild", arXiv, 2025.
Java et al., "Characterizing Deep Research: A Benchmark and Formal Definition (LiveDRBench)", arXiv, 2025.
Mialon et al., "GAIA: A Benchmark for General AI Assistants", 2024.
Chiang et al., "Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference", NeurIPS.
Bai et al., "MT-Bench-101: A Fine-Grained Benchmark for Evaluating LLMs in Multi-Turn Dialogues", ACL, 2024.