开源深度研究代理模型Tongyi DeepResearch技术解析

张

张建站

2026/5/9 5:19:28

10分钟阅读

1. Tongyi DeepResearch开源深度研究代理模型的技术解析在人工智能向通用智能AGI发展的进程中深度研究代理Deep Research Agent正成为解放人类生产力的关键范式。这类代理能够自主执行多步推理和信息检索完成原本需要人类数小时才能解决的复杂研究任务。然而当前多数深度研究系统仍为闭源其核心技术和训练方法对社区不可见。阿里云推出的Tongyi DeepResearch作为首个开源深度研究代理模型通过创新的训练框架和自动化数据流水线在多个基准测试中超越同类闭源系统同时保持极高的参数效率仅激活33亿参数/Token。本文将深入解析其技术架构、训练方法论和性能表现。1.1 核心设计原则1.1.1 端到端代理训练范式传统LLM训练分为预训练和指令微调两个阶段但这种方式难以培养深度研究所需的自主决策能力。Tongyi DeepResearch创新性地引入**代理中间训练Agentic Mid-Training**作为过渡阶段Agentic CPTContinual Pre-training通过大规模代理行为数据如规划、推理、决策动作序列注入代理行为偏好形成思维-行动的认知框架Agentic Post-Training在强化学习阶段通过环境交互优化策略关键采用GRPO算法式4进行token级策略梯度更新这种分阶段设计解决了传统方法中代理能力与对齐目标冲突的问题。实验显示经过中间训练的模型在后续RL阶段收敛速度提升2.3倍。1.1.2 合成数据驱动的规模化训练深度研究任务的数据获取面临两大挑战研究级问题难以从网络文本中自然获取人工标注长周期行为轨迹成本极高约$120/条Tongyi的解决方案是构建全自动数据合成流水线图3# 数据合成示例生成多跳推理问题 def generate_multi_hop_question(knowledge_graph): entity_chain random_walk(knowledge_graph, hops3) question llm.generate( template基于{entity1}的{property1}和{entity2}的{property2}推导{entity3}的哪项特征, entitiesentity_chain ) return apply_uncertainty_injection(question) # 通过原子操作增加问题复杂度该流水线实现问题复杂度可控升级基于集合论的形式化建模Tao et al., 2025确保推理结构严谨性超人类水平数据生成20%的合成样本涉及超过10次工具调用和32K以上上下文数据飞轮效应训练后的代理模型可生成更复杂的训练数据1.1.3 环境交互的三层架构为平衡训练稳定性与真实交互需求设计三种环境类型环境类型稳定性保真度成本适用阶段先验世界环境★★★★★★☆0Mid-Training模拟环境★★★★★★★低RL验证阶段真实环境★★★★★★★高最终训练特别值得注意的是先验世界环境的创新应用模型仅基于预训练知识自主生成交互轨迹无需真实环境反馈。这种方法在中间训练阶段生成1.2B条轨迹成本仅为真实环境的0.3%。2. 关键技术实现2.1 模型架构基于Qwen3-30B-A3B-Base模型采用**混合专家MoE**架构总参数量30.5B每Token激活参数3.3B稀疏率89%支持128K上下文窗口创新性地引入上下文管理范式式3 关键设计将完整历史Ht压缩为马尔可夫状态St仅保留 - 原始问题q - 动态报告摘要St - 最近交互(at, ot)这种设计使模型在WebWalkerQA长轨迹任务中内存占用减少62%同时保持95%的推理准确率。2.2 工具系统代理配备5类核心工具Search/Visit基于Jina的网页解析系统支持自动QPS控制≤15次/秒失败重试机制最多3次备用数据源切换Python解释器沙盒环境支持numpy/pandas等科学计算库Google Scholar学术检索接口自动过滤低质量论文文件解析器支持PDF/DOCX等10格式的多模态处理工具调用采用异步服务架构图5推理服务器与工具服务器分离中央调度层实现结果缓存TTL1h服务降级机制超时控制默认10s2.3 强化学习优化在RL阶段面临的核心挑战是环境不稳定性30%的API调用可能失败。解决方案包括严格on-policy训练使用最新策略生成所有轨迹动态数据过滤自动淘汰已掌握或过难的任务优势估计优化\hat{A}_{i,j} R_i - \text{mean}(\{R_i\}_{i1}^G)采用leave-one-out策略降低方差实验表明这种设计使训练曲线熵值稳定在0.65±0.03图8避免策略崩溃。3. 性能表现与创新应用3.1 基准测试结果在7个权威基准上的表现表1Benchmark得分超越基线关键能力Humanitys Last Exam32.96.0 pts多学科综合推理BrowseComp-ZH46.73.8 pts中文复杂检索xbench-DeepSearch90.66.6 pts长周期规划特别在FRAMES事实核查任务中达到90.6分证明其在信息验证方面的卓越能力。3.2 重型模式Heavy Mode通过研究-合成框架实现测试时计算扩展并行部署n个代理默认n5各代理独立探索不同解决路径合成模型整合压缩报告def synthesize(reports): return llm.generate( 综合以下研究结论\n \n---\n.join(reports) \n排除矛盾证据后给出最终答案 )该方法在BrowseComp-ZH上将准确率从46.7提升至58.1%图6。3.3 实际应用案例学术文献调研自动生成研究问题对比Transformer和RNN在时间序列预测中的理论计算复杂度通过Scholar工具检索近3年顶会论文用Python分析实验数据趋势输出结构化报告含关键图表实测完成时间仅25分钟相当于人类专家工作效率的8倍。4. 局限性与未来方向当前模型的128K上下文窗口仍不足以处理某些超长研究任务。我们正在探索渐进式上下文压缩动态遗忘机制Wu et al., 2025c部分轨迹回放解决off-policy训练分布偏移通用代理基础模型统一规划、记忆和工具调用能力在实际部署中发现模型对模糊问题的澄清能力仍需加强。一个典型改进是在工具调用前插入确认步骤您是想比较算法复杂度还是实际运行时性能Tongyi DeepResearch已完整开源模型权重、训练框架和复现脚本。其技术路线证明通过系统化的环境设计和数据工程中等规模模型也能实现前沿的代理智能。这为AI研究的民主化提供了重要实践范例。

法律AI系统的现状、挑战与对齐技术解析

1. 法律智能系统的现状与挑战法律科技领域近年来最引人注目的发展，莫过于人工智能技术在法律文本处理、合同审查和案件预测等方面的应用。作为一名长期观察法律科技发展的从业者，我见证了从早期简单的法律检索工具到现在能够进行复杂法律推理的AI系统的演…...

2026/5/9 5:18:35 阅读更多 →

嵌入式开发者的新玩具：用Tabby串口功能连接开发板，比Putty更香？

嵌入式开发者的效率革命：Tabby串口工具深度评测与实战指南当你在调试一块STM32开发板时，是否曾为Putty那复古的界面和繁琐的配置感到烦躁？或是为了同时管理SSH会话和串口连接而不得不在多个工具间来回切换？Tabby的出现&#xff0…...

2026/5/9 5:14:34 阅读更多 →

别再死磕横向/纵向联邦了！当你的数据又少又杂时，试试联邦迁移学习（附PyTorch代码示例）

联邦迁移学习：破解数据孤岛困境的实战指南医疗AI研究员张明最近遇到了一个棘手问题——他所在的团队需要开发一个肺部CT影像分析模型，但数据分布却令人头疼：合作的三家医院中，A医院有50万张未标注的CT影像，B医院只有8…...

2026/5/9 5:12:55 阅读更多 →

UVa 173 Network Wars

题目分析本题设定在 212621262126 年，彗星 Swift‑Tuttle\texttt{Swift‑Tuttle}Swift‑Tuttle 撞击地球后，网络中的部分链接被切断，同时一些 AI\texttt{AI}AI 程序发生了变异。两个程序 Paskill\texttt{Paskill}Paskill 和 Lisper\texttt{…...

2026/5/8 22:27:53 阅读更多 →

MA-EgoQA：多智能体第一视角视频问答基准解析

1. 项目背景与核心价值在计算机视觉与自然语言处理的交叉领域，视频问答（VideoQA）一直是极具挑战性的研究方向。而当我们把视角聚焦在第一人称视频（Egocentric Video）时，问题会变得更加复杂——这类视频通常…...

2026/5/8 22:27:54 阅读更多 →

别再死记硬背DDR4时序参数了！用Python脚本自动解析JESD79-4标准文档，生成你的专属配置表

用Python解放DDR4开发：从JESD79-4标准文档自动生成配置工具当第一次打开JESD79-4标准文档时，大多数硬件工程师都会感到一阵眩晕——数百页的技术规范、错综复杂的时序参数、晦涩难懂的寄存器配置，这些内容不仅难以记忆，更在具体项…...

2026/5/8 22:27:56 阅读更多 →

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效【免费下载链接】ZXPInstaller Open Source ZXP Installer for Adobe Extensions 项目地址: https://gitcode.com/gh_mirrors/zx/ZXPInstaller 还在为Adobe扩展安装而头疼吗？A…...

2026/5/8 22:27:58 阅读更多 →