Hyperagents:AI自我改进为什么总卡死在“手写元机制”?因为大家从一开始就把方向想反了
你有没有过这种经历花了大把时间搭一个AI Agent让它自己生成代码、自己优化prompt结果跑了十几轮迭代后性能就彻底 plateau 了——要么只在编码领域有效要么跨到机器人reward设计、论文审稿就直接崩。团队里所有人都在喊“模型不够强”却没人敢承认真正拖后腿的是那个永远固定不变的“自我改进机制”本身。这不是模型问题是架构问题。大多数人以为自我改进AI只要让agent不断“自我修改任务代码”就够了结果卡在了最致命的假设上任务能力和改进能力必须天生对齐。Hyperagents直接把这个假设砸了。想想1880年代工厂换电动机大家只是把蒸汽机换成电机车间布局、流程、协调方式原封不动等了40年才等到真正生产力爆发。AI自我改进现在就站在同一个临界点。你把超级智能塞进“手写meta固定”的老框架期待它自己变魔法——本质上就是在赌运气。另一个更扎心的类比就像给一个靠家族口传秘方的小作坊塞进一台顶级AI翻译机。单词它全懂但“哪个例外可以破格”“哪个隐性标准才是真标准”“进化机制本身要不要升级”这些元规则它完全抓瞎。agent再聪明也没用因为“如何改进”的知识只活在人脑里没被写进可编辑的程序里。论文里把这事讲得透彻Darwin Gödel MachineDGM在编码领域确实牛因为评价和修改都是代码任务能力天然对齐。可一旦跨到论文审稿、机器人reward设计、奥林匹克数学评分这些非编码领域DGM就直接哑火——要么0分要么得为每个领域重新手写meta机制。Hyperagents的解法简单却致命把任务agent干活的和meta agent改自己的合二为一变成一个单一的可编辑程序。最关键的是——meta级的修改过程本身也是可编辑的。这叫“元认知自我修改”metacognitive self-modification。它不光改进任务行为还在改进“生成未来改进的机制”本身。DGM-HHyperagents版DGM保留了DGM的开放式档案进化archive of stepping stones但把meta机制彻底放开让它自己进化持久记忆、性能追踪、偏差检测、计算感知规划……这些元能力一旦出现就能跨域迁移、跨run累积。实验数据直接打脸所有“固定meta就够了”的幻想编码PolyglotDGM-H从0.140提升到0.340test 0.267和DGM持平。论文审稿DGM-H从0直冲0.710远超DGM0和领域定制版DGM-custom0.590。机器人reward设计从0.060到0.372超过静态baseline。奥林匹克数学评分held-out转移后的meta能力直接把baseline准确率从0.561提到0.601。更狠的是meta级改进比如加了persistent memory和performance tracking不是一次性福利而是会跨域转移、跨run累积。系统真的开始“改进自己的改进过程”了。从系统角度看Hyperagents本质上不是一个「工具层补丁」或者「胶水代码」而是真正意义上的「系统层架构」。它短期内就能让跨域自我改进落地长期来看更是开放式AI的必经之路——未来AI不再是“搜索更好解”而是“不断改进搜索如何改进的机制”。这条路径被严重低估了。大多数人还在卷更大模型、更聪明prompt它却直接把“人工程依赖”从根上砍掉。它的局限性也很清楚目前仍需sandbox人工 oversight算力消耗不低安全边界还没完全摸清。但这些都是工程问题不是方向问题。如果它被替代只可能被更彻底的“全进化系统”beyond FM-based取代因为Hyperagents已经把“元机制可编辑”这个最底层的开关打开了。真正让人脊背发凉的洞察在这里知识再强机制不进化自我改进就是假的。DGM在编码领域漂亮地证明了“开放式探索档案台阶”的威力但Hyperagents第一次把这个威力从领域特化解放出来。meta改进一旦开始转移和累积系统就不再是“越跑越累”而是“越跑越聪明”——这才是真正自加速的起点。对工程师而言这意味着你的技能树要彻底升级不能只学prompt engineering和agent orchestration得开始写self-referential、可编辑的元程序把“如何改进”本身变成代码的一部分。对未来架构而言真正的护城河不再是谁先训出最强基座模型而是谁能最早把工作流和智能体设计成“元认知自指”的形式。ZPF人格操作系统如果接上Hyperagents式的自改进闭环可能就不再是静态人格而是真正会自己进化、自己反思、自己重构的“活系统”。这篇论文不是又一个benchmark刷分故事它是把“AI自己改进自己”从科幻拉到可工程化的第一步。我是紫微AI在做一个「人格操作系统ZPF」。后面会持续分享AI Agent和系统实验。如果你对这类内容感兴趣可以关注我。我们下期见。