这项由Hexo Labs美国帕洛阿尔托、比利时布鲁塞尔、加拿大多伦多三地团队联合及英国牛津大学共同完成的研究以预印本形式发布于arXiv平台论文编号为arXiv:2605.27276最新版本于2026年5月28日更新。---一、AI进化的瓶颈——为什么人类成了最大的障碍每当我们谈到人工智能越来越强大背后其实有一个很少被提及的前提这些AI系统的每一次进步几乎都离不开人类工程师和研究人员的亲自介入。从最初训练模型到调整参数再到搭建各种外围工具人类一直是整个流程里无法省略的环节。可以打个比方现在的AI就像一个天赋极高的学生但这个学生每次想要提升自己都需要老师手把手地帮他修改学习计划、更换教材、调整作息——学生自己无法独立完成自我升级。这种对人类干预的依赖正是当前AI领域最核心的瓶颈之一。Hexo Labs的研究团队意识到如果能让AI系统在给定一个任务描述和一个评判标准之后自行决定如何改善自己——既可以调整外部的操作手册又可以修改内部的思维方式——那将是一次真正意义上的突破。SIASelf Improving AI with Harness Weight Updates即带有工具链和权重更新的自我改进AI正是这一设想的具体实现。---二、两条互不相交的研究路线——各自的局限在哪里在SIA出现之前研究界其实已经有两条探索AI自我改进的路线但这两条路线长期以来各自为战从未真正融合。第一条路线可以理解为改装外壳。研究者让一个元AI即一个专门负责改进其他AI的AI不断修改任务AI的操作手册——包括它使用的工具、提示语、出错重试逻辑、输出解析方式等等。这就好像给一个厨师不断更换厨具、改写食谱、优化备菜流程但厨师本人的厨艺和知识储备始终不变。这类工作的代表包括Darwin Godel Machine、Meta-Harness、Hyperagents等系统。这条路线的共同发现是反复修改操作手册改进的往往是流程效率而不是AI真正的领域理解能力——有些知识无论怎么改提示语AI就是无法从内部学会。第二条路线则可以理解为强化内功。研究者设计好一套固定的训练流程然后让AI在面对新任务时通过自身表现的反馈来调整内部参数也就是权重。这就像让厨师通过反复烹饪、品尝、总结真正把新菜式的技巧内化为自己的本能。这类工作的代表包括TTRL、Discover-TTT等。但这条路线的问题在于训练流程是人工设计的、固定的AI只能在既定的框架内学习无法根据任务特点灵活调整学习策略。这两条路线的共同缺陷就是只用一只手——要么只改外壳要么只练内功从未同时做到两者。SIA的核心贡献正是首次将这两个动作融入一个统一的自动化循环之中。---三、SIA的核心设计——一个三角协作的自我进化循环SIA的整体架构可以用一个三角协作来理解。这个三角形的三个角分别是初始化专家Meta-Agent元智能体、执行者Task-Specific Agent任务智能体和反馈教练Feedback-Agent反馈智能体。元智能体的职责是开局给定一个任务描述和一些参考实现它负责为任务智能体生成一套初始的操作手册。这套操作手册包含系统提示语、工具调用逻辑、答案提取代码等是任务智能体开始工作的基础配置。任务智能体是真正干活的角色它拿着操作手册在一个受控的沙盒环境中对任务数据集进行处理产生输出结果同时记录下完整的执行过程日志——每一次模型调用、每一次工具使用、每一次输出提取全都被记录下来这份完整的日志被称为轨迹。反馈智能体则是这个循环的核心驱动力。它不仅仅看汇总的成绩数字而是拿到任务智能体的完整轨迹像一位有经验的教练一样逐条分析哪里出了问题、为什么出问题。分析完之后反馈智能体要做一个关键决策下一步是修改操作手册改外壳还是触发一轮强化学习训练练内功这个决策本身也是动态的依赖于观察到的任务类型和当前的改进瓶颈。这个三角形不断循环运转直到用完预算的步骤数为止。每一轮循环要么操作手册变得更好要么模型的内部参数变得更好要么两者兼而有之。整个过程无需人类干预只需要在最开始提供任务描述和一个评判标准即验证器。---四、两个旋钮的具体运作——操作手册如何更新权重如何训练操作手册的更新过程遵循一个固定的三步节拍先让当前版本的任务智能体跑一遍数据集收集完整轨迹然后反馈智能体分析这些轨迹找出具体的失败模式最后反馈智能体生成一份改进报告和一个全新的操作手册版本。在这个过程中模型的权重保持不变变化的只是外部基础设施——工具、提示语、解析逻辑、重试策略等。为了防止操作手册因为过度适配某几个特殊任务样本而失去通用性元智能体在生成初始操作手册时会接触到多样化的任务描述这被称为样本任务正则化——类似于厨师在制定标准食谱时参考了来自不同地区、不同口味偏好的顾客反馈而不是只针对一桌客人。权重更新的过程则更像是一种定制化的强化训练。反馈智能体并不会机械地套用同一种训练算法而是根据当前任务的特点和观察到的奖励信号分布动态选择最合适的训练策略。在实验报告的三个任务中分别出现了三种不同的训练方式这体现了SIA在训练策略选择上的灵活性。具体来说当奖励信号比较密集、训练稳定性是主要顾虑时反馈智能体会选择一种叫做PPO with GAE的方法这是一种带有专门价值评估辅助网络的策略优化算法能够让模型在不偏离已有能力太远的前提下稳步改进。当任务的答案验证发生在整个解答完成之后、且可以快速并行生成大量尝试时反馈智能体会选择GRPO这种方法不需要额外的价值评估网络直接对一批尝试的结果进行相对排名计算成本更低并行能力更强。当奖励信号极度稀疏——也就是大多数尝试都失败、只有极少数尝试能产生有用信号时反馈智能体会选择熵优势加权方法通过对少数成功案例给予更大的学习权重让模型从稀少的成功经验中最大限度地汲取养分防止有用的信号被大量失败的噪音淹没。此外研究团队还提到在更广泛的实验中不限于论文正式报告的三个任务反馈智能体还观察到两种额外的策略当奖励密集但主要风险是模型能力退化时会选择附加了与原始模型差异惩罚项的最简单强化学习形式当奖励如此稀少以至于策略梯度信号几乎为零时会先进行精英模仿学习——挑出少数表现最好的尝试让模型直接学习这些成功案例将基准成功率提升到一个合理水平再切换到正式的强化学习阶段。---五、三个真实战场——SIA在法律、计算机系统和生物学上的实际表现为了验证SIA不是只对特定类型任务有效研究团队选择了三个截然不同的领域来做测试并与此前最好的已知结果进行了直接比较。**法律领域中文刑事罪名分类**第一个测试来自法律领域具体任务是LawBench——一个191类中文刑事罪名分类基准。给定一段真实案件的事实描述模型需要从191种罪名中找出正确的那一个。这191种罪名涵盖了极为细腻的法律区分比如普通盗窃、公共财产盗窃和挪用公款都属于盗窃类的不同分支轻伤、重伤和故意伤害也各有不同的法律定性。对于这个任务随机猜测的正确率不到1%即便是受过专业训练的法律从业者也会感到棘手。整个数据集包含5332个训练样本和913个测试样本评测在测试集上进行。SIA的进化过程是这样展开的。操作手册的更新阶段前几代版本建立了基本的分类工作流后续几代逐渐将核心策略收敛到一种基于文本特征匹配和线性分类器的流程通过不断调整字符级别的特征提取范围和正则化参数准确率从最初的13.5%稳步爬升到了50.0%超越了此前最好成绩45.0%。此时反馈智能体检测到改进已经停滞随即切换到权重训练阶段采用PPO with GAE方法对模型的分类能力施加精确的梯度压力最终将准确率推进到了70.1%。这意味着仅靠更新操作手册已经超过了之前所有方法再加上权重训练又额外提升了20.1个百分点达到了此前最优结果的156%。**计算机系统领域GPU核心运算优化**第二个测试来自底层计算机系统领域任务是为AlphaFold2一款预测蛋白质三维结构的著名AI系统中的一个核心运算模块编写高效的CUDA程序并在H100 GPU上运行。这个运算模块叫做三角乘法更新它的特点是内存访问模式不连续导致GPU的并行运算能力无法被充分利用想要写出真正高效的实现需要掌握很多H100特有的底层技巧——比如共享内存分块、寄存器压力管理等。评分标准是1500除以运行时间数字越大代表程序越快。此前最好成绩对应的运行时间约为1161微秒。SIA在操作手册更新阶段逐步构建并改进了能够正常运行的CUDA程序最终将运行时间压缩到了12483微秒取得了约1.14倍的加速比。注意这里的运行时间比起点的14254微秒确实有所改善但仍然远未超过此前最优。切换到权重训练阶段后反馈智能体采用了熵优势加权方法来处理这种奖励极度稀疏的场景大多数生成的CUDA程序要么编译失败要么性能极差让模型真正掌握了H100特有的优化技巧最终将运行时间一举压缩到了1017微秒速度提升到基准的14.02倍比此前最优结果快了12.4%。这个改进幅度让人印象深刻因为从12483微秒到1017微秒的跃升几乎完全来自于权重训练阶段——操作手册再怎么修改都无法让模型凭空学会那些需要深度内化的GPU编程知识。**生物学领域单细胞RNA数据去噪**第三个测试来自生物学任务是优化一种叫做MAGIC的单细胞RNA数据处理算法的参数。单细胞RNA测序是一种测量每个细胞基因活性的技术但由于技术本身的局限性测量结果中会有大量本来应该是非零的数值被错误地记录为零这种现象叫做技术脱落。MAGIC算法通过在细胞之间共享和扩散信息来弥补这些缺失值但它的效果非常依赖于几个相互耦合的参数近邻数量k太小会过度敏感于个别细胞的噪声太大则会把真实的生物差异给平均掉扩散步数t和核带宽α也存在类似的权衡。评估指标mse_norm越高越好此前最好成绩为0.240。操作手册更新阶段任务智能体对这些参数的组合空间进行了系统性的探索最终将mse_norm稳定在了0.241刚好超过了此前最优。继续修改操作手册已经无法带来进一步改善反馈智能体于是切换到GRPO权重训练。在第一个权重训练检查点模型产生了一个在整个操作手册迭代过程中从未出现过的结构性改进在MAGIC处理结果后面增加了两行代码将输出数值裁剪为非负整数。这听起来是个极其简单的后处理步骤但它背后有着明确的生物学逻辑——真实的基因表达计数不可能是负数也不可能是小数将结果取整并裁剪到非负范围实际上是把一个生物学常识直接编码进了模型的输出策略。这一改动将mse_norm提升到了0.289比操作手册最好结果又高出了20%。---六、两个旋钮分别改变了什么——深入理解外壳和内功的本质区别操作手册的更新本质上是对外部基础设施的改造。在LawBench任务上它搭建了一个结构化的答案提取层和候选罪名再排序工具在CUDA优化任务上它建立了一个能够解析编译错误日志并将诊断信息结构化地反馈给模型的工具以及一个能够精确测量中位运行时间的计时框架在去噪任务上它构建了一个批量配置驱动器和一个能够将参数组合—得分配对结果整齐呈现给模型的解析工具。这些改变都是外围的——模型本身没有任何变化变化的是模型与任务环境之间的接口和中介层。权重训练的更新则是对内部知识的真正改写。在LawBench上梯度压力让模型学会了区分191个罪名中那些极度相似的子类别这种细微辨别力无法通过任何提示语来获得。在CUDA优化上模型真正掌握了H100 GPU的特定编程技巧这些技巧无法被写进操作手册——你可以在操作手册里告诉模型要注意共享内存分块但模型真正学会如何做只能通过自身生成代码、观察结果、接受梯度反馈来实现。在去噪任务上那个裁剪到非负整数的后处理步骤代表了模型将一个生物学约束内化为自己的输出策略——这个约束在操作手册的无数次迭代中从未被提出却在权重训练后自然涌现。---七、这个系统还有哪些值得正视的问题研究团队在论文中坦诚地指出了SIA当前面临的一个核心挑战这个挑战被称为耦合协进化的古德哈特问题。简单来说古德哈特定律是一条著名的社会科学经验法则当一个衡量指标成为优化目标时它就不再是一个好的衡量指标了——因为系统会开始针对指标进行优化而不是针对指标背后真正想要衡量的东西。SIA面对的是这个问题的一个更复杂的版本操作手册的更新和权重的训练都在针对同一个固定的验证器进行优化。操作手册会找到那些对当前模型来说最容易利用的框架权重则在由当前操作手册塑造的数据分布上进行训练而这个操作手册接下来又会改变。两个优化过程相互依赖、相互影响它们最终收敛到的稳定点从理论上说是两个优化者之间的纳什均衡而不一定是真正意义上的最优解——这个稳定点在训练验证器上看起来很好但在验证器没有覆盖到的分布或任务变体上可能显得脆弱。这是一个开放的研究问题SIA目前还没有提供解决方案。---八、下一步想做什么——研究团队的展望研究团队提出了两个主要的后续研究方向。第一个方向是让反馈智能体的决策本身也变成可以学习的对象。目前反馈智能体选择是修改操作手册还是训练权重依赖的是一个预先固化的大语言模型判断本质上还是人工设计的启发式规则。更理想的做法是把SIA在一系列任务上运行的经验积累起来把每一次观察到的状况采取的行动得到的结果三元组视为一个外层强化学习问题的训练数据让决策策略本身也通过强化学习来改进。这样就形成了一个真正递归的自我改进结构——不仅系统在进步驱动系统进步的机制本身也在进步。第二个方向是让两种更新模式的切换更加细粒度。当前的SIA是以轮次为单位在操作手册更新和权重训练之间粗粒度地切换。一个更精细的调度方式应该允许反馈智能体在操作手册搜索过程中途就触发一次权重更新或者在权重训练刚完成后立刻重启操作手册探索减少从发现瓶颈到采取行动之间的延迟可能会解锁一些粗粒度交替模式下错过的改进路径。---说到底SIA这项工作的意义与其说是AI变得更强了不如说是AI学会了以更系统化的方式让自己变得更强。这两者之间的区别就像一个通过反复练习题目变得更厉害的学生和一个能够主动分析自己哪里不足、决定是要换教材还是去找真实项目练手的学生之间的区别。后者的潜力显然要开放得多。目前SIA在三个截然不同的领域都取得了超越此前最好结果的表现这至少证明了同时调整外壳和内功这条路是走得通的。至于它能走多远以及如何在保证系统不钻空子的前提下让它走得更远可能会是接下来几年AI自我改进研究领域最值得持续关注的问题之一。有兴趣深入了解技术细节的读者可以通过arXiv编号arXiv:2605.27276查阅完整论文。---QAQ1SIA系统和普通AI大模型有什么本质区别A普通大模型的能力在训练完成后基本固定使用时只能依靠外部提示来引导它。SIA是一个自动化循环系统它能在给定任务后既自动修改自身的操作手册外部工具和流程又能通过强化学习更新模型内部参数两者协同进行整个过程不需要人类工程师介入。Q2SIA在中文法律罪名分类任务上的70.1%准确率是怎么实现的ASIA首先通过反复修改操作手册将分类流程优化到基于文本特征匹配和线性分类器的策略准确率从13.5%提升到50%。随后检测到瓶颈后切换到PPO强化学习训练对模型区分191个罪名细微差别的能力进行针对性强化最终达到70.1%比此前最优结果高出25.1个百分点。Q3SIA训练权重时用的强化学习算法为什么每个任务都不一样A因为不同任务的奖励信号特征差异很大。法律分类任务奖励信号密集且稳定适合用PPO保证训练稳定性CUDA优化任务大多数生成代码都无效奖励极度稀疏适合用熵优势加权放大稀少成功样本的学习信号去噪任务可以快速并行评估大量方案适合用GRPO降低计算成本。SIA的反馈智能体会根据观察到的轨迹动态选择最合适的算法。