Deep Research Agent 综述

LLM Agent Deep Research Survey

Deep Research Agent 系统综述:从 RAG 到自主研究代理的演进,以及代表性系统的架构设计。

从 RAG 到 Deep Research

传统 RAG 系统遵循静态流程:查询 → 一次性检索 → 拼接到 Prompt → 生成回答。对于需要多步推理、跨文档综合分析、长文报告撰写的复杂研究任务,这种范式远远不够。

Deep Research Agent 的核心特征在于三个方面:(1) 长流程推理——能在数十甚至上百个步骤中保持目标一致性;(2) 自主工具使用——灵活调用搜索引擎、学术数据库、代码解释器等工具;(3) 上下文压缩与记忆管理——在有限上下文窗口中维护关键信息。

Tongyi DeepResearch:MoE + 推理时扩展

动机:探索如何在有限的上下文窗口内实现高质量的长时间研究任务,同时兼顾成本效率。

基础模型:基于 Qwen3-30B-A3B(MoE 架构,总参 305 亿,激活仅 33 亿),采用改进的 ReAct 循环:Thought → Action → Observation。模型通过 XML 标签调用 5 种工具:Search、Visit、Python Interpreter、Google Scholar、File Parser。

核心创新——马尔可夫状态重构:模型不依赖完整历史记录,而是每步将输入重构为"原始问题 + 演进式报告(压缩记忆)+ 最近交互"。演进式报告将每步的发现压缩为结构化片段,有效突破了上下文窗口限制。这种方法的关键在于"有损压缩"——只保留与原始问题相关的高价值信息。

Heavy Mode:部署 N 个并行 Agent 独立探索不同路径,最后由一个合成模型汇总去重。这种"用计算换质量"的策略在理论上可以无限扩展,但需要解决并行结果去重、冲突消解和合成质量等问题。

WebThinker:推理中无缝浏览

动机:传统 RAG 采用"先搜完再写"的两阶段模式,但研究写作往往是非线性的——撰写某章节时可能发现信息不足,需要中断写作去搜索,再回来继续。WebThinker 让模型在推理过程中无缝交替进行思考、搜索和写作

架构设计:支持两种工作模式:

  • 复杂问题解决模式:针对 GPQA/GAIA 等需要深度推理的难题,模型在思考链中随时插入搜索动作。
  • 报告生成模式:分章节执行"搜索 → 推理 → 撰写 → 修改"的迭代循环。每写完一个章节,模型自行评估信息充分性,决定是否需要补充搜索。

文档记忆库:分章节管理查到的信息,每个章节对应一个独立的文档上下文,避免跨章节信息干扰。这种结构化记忆管理使得长报告写作过程中的信息检索更加高效。

RhinoInsight:检查清单 + 证据审计

动机:Deep Research 系统普遍存在两个被忽视的问题:(1) 规划阶段的模糊性——初始规划不够具体,导致后续搜索方向偏差;(2) 上下文噪声的累积传播——大量搜索结果中混杂噪声,随步骤增加不断放大。

可验证清单模块(Verifiable Checklist):将模糊的研究需求拆解为清晰、可追踪的子目标。引入"批评家"(Critic)机制审查每个子目标的合理性,确保规划的可执行性。这一模块本质上是对 ReAct 中 "Thought" 步骤的增强——不是自由格式思考,而是结构化的目标分解。

证据审计模块(Evidence Audit):结构化管理搜索内容,动态更新大纲,主动剔除噪声信息。每条搜索结果经过相关性评分,低于阈值的直接丢弃而非存入上下文。这一设计有效防止了"垃圾进,垃圾出"的困境。

A-RAG:分层代理式检索

动机:传统 RAG 将检索简化为"输入查询 → 返回文档",但人类的真实研究过程是分层次的:先扫视标题和摘要判断相关性,再精读具体段落。A-RAG 的核心思想是让 Agent 模拟这一过程。

三层检索接口:

  • Keyword Search:精确匹配,模拟"标题扫描"——快速过滤大量无关结果。
  • Semantic Search:向量相似度,模拟"摘要阅读"——捕捉语义相关性。
  • Chunk Read:精读约 1000 tokens 的文档片段,模拟"段落精读"——获取具体信息。

关键发现:即使只用单一工具的 A-RAG (Naive) 也优于大多数复杂的 GraphRAG,且检索的 Token 数更少但准确率更高。这揭示了代理式检索的核心优势——"模型越强,代理范式的优势越大":强大的模型能够自主决定何时从粗粒度检索切换到细粒度检索,避免了预先设定检索策略的局限性。

REER:逆向工程推理

动机:"深度推理"范式在数学等可验证领域取得了巨大进展,但在开放式生成任务(如写作)中遭遇瓶颈。两种主流方法——强化学习(缺乏清晰奖励信号)和指令蒸馏(受限于教师模型能力)——都无法有效处理开放式任务。

核心创新——逆向工程推理:REER 不"正向"地从零构建推理过程,而是"反向"地从已知的高质量解出发,计算发现能产生该解的潜在推理步骤。具体流程:

  • 输入一个高质量生成结果(如一篇优秀文章)。
  • 通过可扩展的、无需梯度的计算过程,逆向推导出逐步的深度推理轨迹。
  • 用这些逆向发现的轨迹作为训练数据。

基于此方法构建了 DeepWriting-20K 数据集(20,000 条开放式任务的深度推理轨迹)。DeepWriter-8B 在此数据上训练后,不仅超越了强开源基线,还在部分任务上达到了与 GPT-4o 和 Claude 3.5 竞争的性能。这一方法开辟了"通过逆向工程获取推理数据"的新范式。

架构对比

系统核心创新上下文策略工具使用
Tongyi DR马尔可夫状态重构演进式报告压缩5 种工具 (XML 标签)
WebThinker推理-写作无缝交替分章节文档记忆搜索 + 浏览
RhinoInsight检查清单 + 证据审计噪声主动剔除搜索 (含审计过滤)
A-RAG三层分层检索按需精读 (Token 节省)Keyword / Semantic / Chunk
REER逆向工程推理从解反向推导轨迹无 (纯生成范式)

参考文献

  1. Huang et al., "Deep Research Agents: A Systematic Examination And Roadmap", arXiv, 2025.
  2. Xu et al., "A Comprehensive Survey of Deep Research: Systems, Methodologies, and Applications", arXiv, 2025.
  3. Tongyi Team, "Tongyi DeepResearch Technical Report", arXiv, 2025.
  4. Li et al., "WebThinker: Empowering Large Reasoning Models with Deep Research Capability", arXiv, 2025.
  5. Lei et al., "RhinoInsight: Improving Deep Research through Control Mechanisms", arXiv, 2025.
  6. Du et al., "A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces", arXiv, 2026.
  7. Wang et al., "Reverse-Engineered Reasoning for Open-Ended Generation", arXiv, 2025.