Deep Research Agent 综述

2026.02

Deep Research Agent 系统综述：从 RAG 到自主研究代理的演进，以及代表性系统的架构设计。

从 RAG 到 Deep Research

传统 RAG 系统遵循静态流程：查询 → 一次性检索 → 拼接到 Prompt → 生成回答。对于需要多步推理、跨文档综合分析、长文报告撰写的复杂研究任务，这种范式远远不够。

Deep Research Agent 的核心特征在于三个方面：(1) 长流程推理——能在数十甚至上百个步骤中保持目标一致性；(2) 自主工具使用——灵活调用搜索引擎、学术数据库、代码解释器等工具；(3) 上下文压缩与记忆管理——在有限上下文窗口中维护关键信息。

Tongyi DeepResearch：MoE + 推理时扩展

动机：探索如何在有限的上下文窗口内实现高质量的长时间研究任务，同时兼顾成本效率。

基础模型：基于 Qwen3-30B-A3B（MoE 架构，总参 305 亿，激活仅 33 亿），采用改进的 ReAct 循环：Thought → Action → Observation。模型通过 XML 标签调用 5 种工具：Search、Visit、Python Interpreter、Google Scholar、File Parser。

核心创新——马尔可夫状态重构：模型不依赖完整历史记录，而是每步将输入重构为"原始问题 + 演进式报告（压缩记忆）+ 最近交互"。演进式报告将每步的发现压缩为结构化片段，有效突破了上下文窗口限制。这种方法的关键在于"有损压缩"——只保留与原始问题相关的高价值信息。

Heavy Mode：部署 N 个并行 Agent 独立探索不同路径，最后由一个合成模型汇总去重。这种"用计算换质量"的策略在理论上可以无限扩展，但需要解决并行结果去重、冲突消解和合成质量等问题。

WebThinker：推理中无缝浏览

动机：传统 RAG 采用"先搜完再写"的两阶段模式，但研究写作往往是非线性的——撰写某章节时可能发现信息不足，需要中断写作去搜索，再回来继续。WebThinker 让模型在推理过程中无缝交替进行思考、搜索和写作。

架构设计：支持两种工作模式：

复杂问题解决模式：针对 GPQA/GAIA 等需要深度推理的难题，模型在思考链中随时插入搜索动作。
报告生成模式：分章节执行"搜索 → 推理 → 撰写 → 修改"的迭代循环。每写完一个章节，模型自行评估信息充分性，决定是否需要补充搜索。

文档记忆库：分章节管理查到的信息，每个章节对应一个独立的文档上下文，避免跨章节信息干扰。这种结构化记忆管理使得长报告写作过程中的信息检索更加高效。

RhinoInsight：检查清单 + 证据审计

动机：Deep Research 系统普遍存在两个被忽视的问题：(1) 规划阶段的模糊性——初始规划不够具体，导致后续搜索方向偏差；(2) 上下文噪声的累积传播——大量搜索结果中混杂噪声，随步骤增加不断放大。

可验证清单模块（Verifiable Checklist）：将模糊的研究需求拆解为清晰、可追踪的子目标。引入"批评家"（Critic）机制审查每个子目标的合理性，确保规划的可执行性。这一模块本质上是对 ReAct 中 "Thought" 步骤的增强——不是自由格式思考，而是结构化的目标分解。

证据审计模块（Evidence Audit）：结构化管理搜索内容，动态更新大纲，主动剔除噪声信息。每条搜索结果经过相关性评分，低于阈值的直接丢弃而非存入上下文。这一设计有效防止了"垃圾进，垃圾出"的困境。

A-RAG：分层代理式检索

动机：传统 RAG 将检索简化为"输入查询 → 返回文档"，但人类的真实研究过程是分层次的：先扫视标题和摘要判断相关性，再精读具体段落。A-RAG 的核心思想是让 Agent 模拟这一过程。

三层检索接口：

Keyword Search：精确匹配，模拟"标题扫描"——快速过滤大量无关结果。
Semantic Search：向量相似度，模拟"摘要阅读"——捕捉语义相关性。
Chunk Read：精读约 1000 tokens 的文档片段，模拟"段落精读"——获取具体信息。

关键发现：即使只用单一工具的 A-RAG (Naive) 也优于大多数复杂的 GraphRAG，且检索的 Token 数更少但准确率更高。这揭示了代理式检索的核心优势——"模型越强，代理范式的优势越大"：强大的模型能够自主决定何时从粗粒度检索切换到细粒度检索，避免了预先设定检索策略的局限性。

REER：逆向工程推理

动机："深度推理"范式在数学等可验证领域取得了巨大进展，但在开放式生成任务（如写作）中遭遇瓶颈。两种主流方法——强化学习（缺乏清晰奖励信号）和指令蒸馏（受限于教师模型能力）——都无法有效处理开放式任务。

核心创新——逆向工程推理：REER 不"正向"地从零构建推理过程，而是"反向"地从已知的高质量解出发，计算发现能产生该解的潜在推理步骤。具体流程：

输入一个高质量生成结果（如一篇优秀文章）。
通过可扩展的、无需梯度的计算过程，逆向推导出逐步的深度推理轨迹。
用这些逆向发现的轨迹作为训练数据。

基于此方法构建了 DeepWriting-20K 数据集（20,000 条开放式任务的深度推理轨迹）。DeepWriter-8B 在此数据上训练后，不仅超越了强开源基线，还在部分任务上达到了与 GPT-4o 和 Claude 3.5 竞争的性能。这一方法开辟了"通过逆向工程获取推理数据"的新范式。

架构对比

系统	核心创新	上下文策略	工具使用
Tongyi DR	马尔可夫状态重构	演进式报告压缩	5 种工具 (XML 标签)
WebThinker	推理-写作无缝交替	分章节文档记忆	搜索 + 浏览
RhinoInsight	检查清单 + 证据审计	噪声主动剔除	搜索 (含审计过滤)
A-RAG	三层分层检索	按需精读 (Token 节省)	Keyword / Semantic / Chunk
REER	逆向工程推理	从解反向推导轨迹	无 (纯生成范式)

参考文献

Huang et al., "Deep Research Agents: A Systematic Examination And Roadmap", arXiv, 2025.
Xu et al., "A Comprehensive Survey of Deep Research: Systems, Methodologies, and Applications", arXiv, 2025.
Tongyi Team, "Tongyi DeepResearch Technical Report", arXiv, 2025.
Li et al., "WebThinker: Empowering Large Reasoning Models with Deep Research Capability", arXiv, 2025.
Lei et al., "RhinoInsight: Improving Deep Research through Control Mechanisms", arXiv, 2025.
Du et al., "A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces", arXiv, 2026.
Wang et al., "Reverse-Engineered Reasoning for Open-Ended Generation", arXiv, 2025.