小模型代替顶级闭源:微软用4B小助理,砍掉30% Token消耗
在智能体执行任务上例如终端执行任务小模型能代替顶级前沿模型吗微软的研究团队给出了答案可行。团队抛出一个极具实用价值的方案用一个仅 4B 参数的微型模型 Terminus-4B替换昂贵的顶配大模型专门接管繁杂的终端执行任务性能未见衰减主模型 Token 消耗直接砍掉近 30%。团队采用 SFT 加上 RL 2步走策略把基础小模型打造成了专职的子智能体专门负责吸收杂乱无章的终端日志提取关键信息并返回清晰的摘要。繁杂的终端引入执行子智能体编写代码解决复杂问题离不开终端执行任务。构建项目、安装依赖、跑测试用例每一个环节都在与终端系统打交道。现在顶尖模型的AI编程智能体自带终端工具亲自敲命令并阅读结果。但一个冗长的测试用例跑下来上万 Token 没了。上下文窗口被成堆的构建日志和测试输出塞满AI用于思考代码逻辑、规划后续行动的空间极度缩水。随着任务不断推进新增日志像滚雪球一样膨胀。经常发生的情况是AI 没解决几个问题就触碰到了上下文长度的物理红线。让昂贵的主智能体“亲力亲为”在上下文里亲自咀嚼所有原始输出效率极低成本也居高不下。为防止主智能体被日志淹没研究团队在现有框架里引入了 Execution Subagent执行子智能体。运作逻辑非常清爽。主智能体遇到需要跑代码验证的脏活累活只需简单吩咐一句比如去跑一下测试套件并报告报错原因。子智能体接到指令便在独立的上下文窗口中独立干活。子智能体手里只有一个终端工具。系统给它立了严格规矩核心要求是干完活只能返回一个固定格式的摘要。摘要里清楚写明跑了什么命令结果如何关键报错位置在哪里。主智能体接收到的是精简到200字左右的核心评估报告不看完整日志。专门训练的小模型目前行业普遍使用前沿大模型作为子智能体大脑。团队尝试选择 SLM小语言模型破局以 Qwen3-4B 为底座专门为终端智能体任务打造了 Terminus-4B。起步动作是收集数据。团队从各类开源项目里抽取出大约 3200 个真实的终端执行任务涵盖5种主流语言任务大头集中在测试执行和错误诊断。基础训练阶段是 SFT监督微调。利用内部的遥测数据跑2轮让模型熟悉怎样使用终端工具怎样解读输出以及怎样写出令主智能体满意的最终摘要。后续进阶阶段是 RL强化学习。团队选用了 GRPO组相对策略优化算法。有了监督微调打底强化学习的奖励分数稳步攀升模型学会了高价值的应对策略。小模型也能堪大用团队在 SWE-Bench Pro 和内部的 SWE-Bench C# 两个高难度工程基准测试上进行了全面考核。跑分数据亮眼。以 Claude Opus 4.6 作为主智能体模型把子智能体换成只有 4B 参数的 Terminus-4B在 SWE-Bench Pro 基准上整个系统解决问题的成功率稳定保持在基准线水平。应用子智能体后整体解决率31.5%相比基线30.0%持平小模型并未拖累智能体的整体智商。Terminus-4B 帮助主智能体节省了约 13% 的 Token 消耗比使用 Opus 作为子智能体节省更多。而那些用普通未经训练的4B模型跑的任务消耗不降反升。经过强化学习主智能体拿到 Terminus-4B 的报告后亲自上手去敲终端命令的次数锐减了 73.7%。团队进一步在 SWE-Bench C# 基准上测试了 Terminus-4B 配合不同主智能体时的普适性。不同主模型下Terminus-4B 都能保持接近基线的解决率。能力更强的主模型通常更频繁地调用执行子智能体。当与 Opus 或 GPT-5.3-Codex 结合使用时Terminus-4B 实现了最大幅度 Token 消耗。并且主智能体直接调用终端的次数更低。为摸清系统的极限研究人员干脆把主智能体手里的终端工具全部收走所有终端活儿都交给子智能体去干。主智能体如果想运行任何命令唯一且途径就是通过子智能体。极端测试下在失去自我执行修复手段后未微调的 Vanilla-4B 导致 Token 使用量急剧膨胀相比基准高出9.5%。主智能体重复调用子智能体的频率高达 1.51比 Opus 作为子智能体高出约70%。经过强化学习后的 Terminus-4B 重复调用率与 Opus 作为子智能体时的最高水平表现完全相同。在任务完成度、事实准确性、信息量、相关性和可行动性 5 个维度上Terminus-4B 的得分死死咬住了价格高昂的前沿模型。把复杂任务拆解粗活累活交给便宜好用的小模型专精处理这是一条极具实用意义的路线。让顶级模型干顶级思考和推理的事好钢用在刀刃上。全自主编程助手全民普及的门槛又降低了。参考资料https://arxiv.org/pdf/2605.03195