递归自改进的力量,OMEGA 让算法研发进入“生长模式”
导读当我们习惯了让 AutoML 帮我们调参、让大模型帮我们写代码时一个更大胆的问题开始浮现。机器能不能自己“发明”机器学习算法不仅能写出能跑的代码还能在标准数据集上打败人类工程师手写的经典模型。OMEGA 正是在回答这个问题。它把 LLM 的生成能力、自动调试、自我改进和统一评测串成一条完整的流水线让算法从“想法”到“可执行模型”都能自动完成。更令人意外的是这些自动生成的模型在多个任务上超过了 scikit‑learn的基线表现甚至能通过递归自改进不断变强。OMEGA 展示的不是一个新模型而是一种全新的科研方式一种让 AI 参与算法创造、甚至自我进化的可能性。机器学习的未来也许正在从“人写算法”走向“算法自己长出来”。01 从AutoML到自动化算法发现的范式跃迁如果说过去十年机器学习的主旋律是“模型越来越大、算力越来越猛”那现在这股风正在悄悄转向另一个方向——让机器自己发明机器学习算法。 这听起来像科幻小说里的桥段但OMEGA 这篇提交到 ICLR 2026 的研究团队正是把这个想法往现实里推了一大步。传统的机器学习研究其实非常“手工”。研究者脑子里冒出一个点子接着要写代码、调 bug、跑实验、调参、再跑实验……一个新算法从灵感到能跑起来往往要花掉几周甚至几个月。 AutoML 和 NAS 虽然帮我们自动调了模型结构和超参但它们的搜索空间仍然被框死在“已有算法的变体”里想让它们真正创造一个全新的学习逻辑几乎不可能。而 LLM 的出现让人看到了另一条路。它们能写代码、能解释错误、能根据提示生成新的算法思路但缺点也很明显 它们写出来的代码能不能跑能不能复现能不能在标准数据集上稳定表现 这些问题没有一个靠“单纯让 LLM 输出代码”就能解决。OMEGA 的出现就是把这条路真正铺平。它把 LLM 的输出从“文本”变成“可执行学习系统”让“自动化算法发现”第一次有了一个闭环 想法生成 → 代码生成 → 自愈调试 → 标准化评测 → 模型发布。 这不是 AutoML 的升级版而是一个新的范式。研究团队来自Infinity Artificial Intelligence Institute 与斯坦福大学计算机科学Stanford CS既有工业界的工程基因也有学术界的严谨气质。把这类研究投到ICLR也说明他们不是在做玩具而是想把“自动化算法创造”推向主流研究舞台。当我们把视角拉回到 OMEGA 的核心问题会发现它其实在回答三个非常关键的挑战。 第一LLM 能不能真正生成“新算法”而不是把已有方法重新排列组合。 第二生成的代码能不能跑、能不能评测、能不能复现。 第三这些自动生成的模型能不能在标准基准上打败 sklearn 的经典模型。研究团队的贡献也围绕这三点展开。 它提出了一个端到端的算法生成框架把 LLM 的创造力和工程化的严谨性绑在一起。 并且构建了一个名为 infinity‑bench 的 20 数据集评测体系让所有生成模型都能在同一套标准下比较。 它展示了两个非常有代表性的“新算法”一个来自人类提示一个来自 LLM 自己的想法。 它比较了四大主流 LLM 的代码生成能力告诉我们“谁更会写算法”。 它还做了一个很有意思的实验到底是改 prompt 更有效还是改代码更有效结果非常耐人寻味。02 OMEGA 所处的技术生态如果把 OMEGA 放在过去十年的机器学习发展史里它的位置非常清晰。它不是在和 AutoML竞争而是在补上 AutoML 做不到的那一块。AutoML 和 NAS 的核心能力是在一个预设好的空间里搜索最优结构。你给它卷积层、注意力层、MLP层它帮你组合你给它超参范围它帮你调。但它永远不会跳出这个空间也不会自己发明一个新的学习逻辑。 元学习虽然试图让模型“学会如何学习”但它依然依赖已有算法的框架。真正让“自动化算法发现”变得现实的是AlphaTensor、AlphaEvolve 这类工作。它们证明了机器可以在数学空间里找到人类没想到的算法比如矩阵乘法的更优分解。但这些系统往往依赖专门的搜索结构或强化学习框架难以泛化到更广泛的机器学习任务。与此同时LLM 的程序合成能力在过去两年里突飞猛进。 从 HumanEval 这种“能不能写出正确函数”的测试到现在的闭环执行环境LLM 已经能做到“写代码 → 运行 → 看错误 → 再写”。 但缺乏一个统一的框架把这些能力整合成一个真正能“发明算法”的系统。OMEGA 的定位就非常明确。 它不是在调参也不是在做结构搜索而是在让 LLM 直接生成一个“新的学习器”。 它把 sklearn 当成一种 DSL领域特定语言让所有生成算法都能无缝接入现有生态。 它用自愈循环保证代码能跑用 infinity‑bench 保证评测标准化用模型库发布保证可复现。如果说 AutoML 是“自动调模型”那 OMEGA 就是“自动造模型”。 这是一个从“优化已有算法”到“创造新算法”的范式跃迁。03 OMEGA 框架从想法到可执行模型的闭环系统如果说前两节让我们看到了 OMEGA 的“野心”那这一节就是它真正的“工程灵魂”。 这套框架的厉害之处不在于某个单点创新而在于它把一整条“算法创造链路”打通了。 从灵感到代码从错误到修复从模型到评测再到最终打包成库整个过程像一条自动化生产线。 你甚至能感受到一种“AI 在做科研”的味道。图1OMEGA核心框架。框架总览从 Idea 到Release 的完整闭环OMEGA 的整体流程非常清晰。 先让 LLM 生成一个算法想法再让它写出对应的 sklearn 风格代码。 代码写出来之后不一定能跑于是进入自愈循环让 LLM 根据错误信息不断修补。 修好之后把模型丢到统一的评测体系里跑一遍算出分数。 表现好的模型会被自动收录进一个 pip 包也就是 omega‑models。这条链路的关键是它不是“单向生成”而是“闭环反馈”。 LLM 不只是写代码它还要对自己的错误负责。 这让整个系统更像一个“自动化科研助手”而不是一个“代码生成器”。为了让 LLM 更好地理解任务OMEGA 设计了结构化的 meta‑prompt。 它不是一句“帮我写个分类器”而是把任务拆成类名、文件名、接口要求、数据格式、评测方式等一整套结构化信息。 这就像给 LLM 提供了一份“算法设计说明书”让它在一个清晰的框架里发挥创造力。Idea Generation算法想法是怎么被“自动发明”的OMEGA 的第一步不是写代码而是“想点子”。 这一步有两种来源一种来自人类一种来自 LLM 自己。人类输入很好理解就是研究者把自己的想法丢进去比如“能不能做一个方向性森林”。 但更有意思的是 LLM 的“Ontology Search”。 研究者给它一组基础模型再给它一组研究原则比如偏差‑方差、特征子空间、信息增益之类的。 LLM 会把这些元素组合起来生成一批“可能有用的新算法思路”。这一步其实非常接近“自动化科研”的核心。 它不是在调参而是在探索新的算法空间。 这些想法有的很怪有的很新有的甚至能跑出不错的结果。 这说明 LLM 在“算法创造”这件事上确实有点潜力。Code Generation从自然语言到sklearn兼容代码想法有了下一步就是写代码。 OMEGA 在这里做了一个非常聪明的设计——强制所有生成模型都遵循 sklearn 的 API。 也就是说每个模型都必须继承 BaseEstimator并且实现 fit 和 predict。这看似是限制实际上是“工程化的自由”。 因为 sklearn的接口已经成为行业标准只要模型遵循这个规范就能无缝接入各种 pipeline、交叉验证、网格搜索、特征工程流程。 这让 OMEGA 生成的模型不是“玩具代码”而是“可用代码”。在代码生成阶段OMEGA 会解析 LLM 的输出把类名、文件名、代码块提取出来确保结构清晰。 这一步非常关键因为 LLM 的输出有时会混杂解释、注释、代码片段必须经过解析才能进入下一步。Self‑Healing Loop自动调试与错误修复代码第一次生成时十有八九是跑不通的。 这不是 LLM 的问题而是“写算法”本来就很容易出错。 OMEGA 的自愈循环就是让 LLM 自己修自己的 bug。流程很简单但很有效。 系统运行代码捕获错误栈把错误信息重新写进 prompt让 LLM 根据错误修复代码。 这个过程可以重复多轮直到代码能跑通或者达到最大尝试次数。这一步的关键是 LLM 能看到真实的错误信息。 比如 AttributeError、SyntaxError、TimeoutError 等等。 它会根据这些错误进行针对性修复而不是盲目重写。当然自愈机制也有风险。 比如 LLM 可能为了“让代码能跑”而牺牲算法逻辑或者陷入某种“错误循环”。 但整体来看这个机制让 OMEGA 的可执行性大幅提升。Evaluationinfinity‑bench的统一评测体系代码能跑只是第一步能不能表现好才是关键。 OMEGA 使用了一个名为 infinity‑bench 的评测体系包含 20 个多样化的分类数据集。 这些数据集覆盖数值型、类别型、小样本、大样本、二分类、多分类等各种情况。为了让不同数据集的结果可比OMEGA 使用了 Min‑Max Normalized Accuracy。 公式是这样的意思是把每个模型在每个数据集上的表现按该数据集的最差和最好模型做归一化。 这样就避免了“简单数据集把所有模型都拉满”的问题。最终的得分是所有数据集的平均值这个评测体系的意义在于它让所有生成模型都在同一套标准下比较。 这对自动化算法发现来说非常重要因为你必须有一个统一的“评价尺子”。图2最佳模型与Scikit学习基线最小最大分数。Library Creation模型的工程化发布最后一步是把表现最好的模型打包成一个 pip 包也就是 omega‑models。 这一步看似简单但意义重大。 它让 OMEGA 生成的模型不只是实验结果而是可以被任何人直接import 使用的工具。更重要的是这些模型遵循 sklearn 的接口规范所以它们可以直接接入现有的工程流程。 这让 OMEGA 的成果真正具备了“落地价值”。04 代表性生成模型OMEGA 的“算法创造力”如果说 OMEGA 的框架展示了“AI 如何造算法”那这一节就是它真正的“作品展”。 这些模型不是人类研究者手写的而是 LLM 在结构化提示、自愈循环和统一评测体系的共同作用下“创造”出来的。 它们不是简单的“换皮模型”而是带着某种“新逻辑”的算法雏形。 其中最具代表性的两个一个来自人类提示一个来自 LLM 自己的灵感分别是MetaSynthesisClassifier 和 DirectionalForest。MetaSynthesisClassifierLLM生成的堆叠元学习框架MetaSynthesisClassifier 是那种你一看就知道“有点东西”的模型。 它的核心思想其实不复杂就是把多个基学习器的预测结果再交给一个“更聪明的模型”来综合判断。 但OMEGA 让 LLM 自己把这个结构写出来并且写得足够规范、足够可运行这本身就很有意思。MetaSynthesisClassifier 的第一步是准备一组基学习器。 这些基学习器可以是逻辑回归、随机森林、决策树也可以是其他 sklearn 兼容的模型。 它们各自训练、各自预测然后把每个样本的预测概率拼成一个新的向量。 这个向量就是所谓的 meta‑feature。研究团队给出了一个非常关键的公式用来描述这个 meta‑feature 的构造方式意思很简单把所有基学习器对同一个样本的“看法”拼在一起形成一个新的特征空间。 这个空间不是原始特征空间而是“模型的观点空间”。为了避免数据泄漏基学习器在生成这些概率时会使用交叉验证也就是说每个样本的预测都来自“没见过它的模型”。 这让 meta‑learner能真正学到“哪个基学习器在什么情况下更靠谱”。接下来meta‑learner 会在这个新空间里学习一个映射关系它的目标不是拟合原始特征而是拟合“模型的判断”。 这让它在很多复杂数据集上表现得比单模型更稳、更准。为什么它能超过单模型 原因其实很朴素。 不同模型有不同的偏差和盲点把它们的判断综合起来就像让多个专家一起投票。MetaSynthesisClassifier 的 meta‑learner学到的就是“哪个专家在什么情况下更值得信任”。在 20 个数据集的评测中这个模型表现非常亮眼甚至拿下了整个 OMEGA 体系的最高分。 这说明 LLM 在“组合已有模型”这件事上确实能玩出一些新花样。图3:MetaSynthesisClassifier与Scikit-Learn个人数据集得分。DirectionalForest基于特征方向性的决策森林如果说 MetaSynthesisClassifier 是“聪明的组合”那 DirectionalForest 就更像是“结构上的创新”。 它不是在已有模型上做加法而是引入了一个新的概念——特征方向性。DirectionalForest 的核心是计算每个特征在不同类别之间的“方向”。 具体做法是先算每个类别的均值向量再算全局均值然后把它们的差求符号这个方向向量 d 的每个元素都是 −1、0 或 1表示某个特征在整体上是“偏向某类”还是“偏离某类”。 接下来所有样本的特征都会和这个方向向量做逐元素相乘这一步看似简单但意义很大。 它相当于把整个特征空间“旋转”或“翻转”到一个更有利于分类的方向。 决策树在这个方向空间里更容易找到有效的分裂点因为特征的极性已经被统一了。DirectionalForest 的优势在于它能在高维数据集上保持稳定表现。 它的假设虽然简单但在很多数据分布中确实能减少树模型的方差。 相比传统的 RandomForest它多了一步“方向校准”这让它在某些任务上能跑得更好。当然它也有局限。 比如当类别均值差异不明显时方向向量可能不稳定 或者当特征之间存在强非线性关系时这种线性方向假设可能不够用。 但作为一个由 LLM 自动生成的算法它的结构已经相当有启发性。图4:DirectionalForest与Scikit-Learn个人数据集得分。其他高分模型速览DimAwareForest、CompressionGuidedForest 等除了这两个代表作OMEGA 还生成了不少表现不错的模型。 比如 DimAwareForest它会根据特征维度的重要性动态调整树的结构 CompressionGuidedForest 则尝试用某种“压缩感知”的思想来指导特征选择。 这些模型的共同点是它们都不是简单的“换名字”而是带着某种结构上的创新。这些创新可能来自 LLM 对已有算法的重新组合也可能来自它对提示中“原则”的某种抽象理解。 比如“高维特征需要降噪”、“信息量大的特征应该优先分裂”、“不同树应该有不同的偏差‑方差配置”等等。 这些启发在传统研究中也常见但 LLM 把它们组合成了新的结构。这些模型的存在说明OMEGA 不只是能生成“能跑的模型”而是能生成“有想法的模型”。 这才是自动化算法发现最令人兴奋的地方。05 LLM 生成能力比较与自我改进实验Prompt 比代码更重要当我们看到 OMEGA 能自动生成算法时心里自然会冒出一个问题。 到底是哪家的 LLM 更会写算法 是 Gemini 的工程基因更强还是 GPT 的推理能力更稳或者 Claude 的逻辑性更好亦或是 grok 的速度优势能带来意外惊喜 研究团队把这四个模型放在同一条跑道上让它们在相同的提示下生成算法再经过自愈循环和统一评测体系最终比拼“谁写出来的模型更能打”。结果很快就显现出来。 Gemini 2.5 Flash 的平均表现最强稳定性也最好。 GPT‑4.1 mini 紧随其后整体表现均衡。 Claude Sonnet 4.5 偶尔能写出很有想法的结构但波动稍大。 grok‑code‑fast‑1 则像一位灵感型选手有时能跑出惊喜有时也会掉链子。表1:LLM中模型生成提示的得分以每个提示中表现最佳的LLM加粗。但真正值得关注的不是“谁赢了”而是“差距其实没有想象中那么大”。 这说明一个非常关键的事实。在OMEGA这种结构化框架里LLM的差距被大幅缩小提示prompt的质量反而成为决定性因素。LLM 写算法这件事已经从“比模型”变成了“比提示”。 这是一种范式变化也是一种能力迁移。 未来谁能写出更好的 prompt谁就能让 LLM 发挥更大的创造力。图5:OMEGA提示和代码改进实验。Prompt Improvement vs Code Improvement为了进一步验证“提示是否比代码更重要”研究团队做了一个非常聪明的实验。 让 LLM 自己改 prompt。 再让LLM 自己改代码。 然后比较两种方式带来的性能提升。结果非常清晰改prompt的提升幅度普遍大于改代码。为什么会这样 因为 prompt 决定的是“算法空间”。 它影响的是 LLM 会往哪个方向思考会采用什么结构会选择什么策略。 这是一种“高维度的改变”像是给模型换了一个新的世界观。 而代码改进更多是“修补实现”比如修 bug、补逻辑、改变量名。 它改变的是细节而不是方向。不同 LLM 的表现也不一样。 Claude 在 prompt 改进上的提升最明显说明它对提示的敏感度更高。 GPT 的提升也很稳定属于“越指导越聪明”的类型。 Gemini 本来就强提升幅度相对有限但依然能从 prompt 改进中获益。 grok‑code‑fast‑1 在 prompt 改进上甚至出现了负提升说明它对提示的依赖方式更特殊也更容易“跑偏”。这个实验的意义非常深远。 它告诉我们未来的自动化算法发现系统核心竞争力不在于 LLM 本身而在于prompt 的设计能力。 这意味着 prompt engineering 不会消失反而会成为“自动化科研”的关键技能。06 OMEGA 的价值、局限与方向OMEGA 的出现让人兴奋它让“AI 自动发明算法”从概念变成了一个可运行的系统。 但作为研究者我们也必须冷静地看到它的边界。 任何技术的突破都伴随着新的问题和新的挑战。方法学局限OMEGA 目前只在表格型分类任务上验证这类任务结构清晰、特征独立、接口统一非常适合自动化算法生成。 但它无法代表图像、文本、时间序列等更复杂的任务这些任务需要深度网络、需要 GPU、需要更复杂的训练流程。 未来要扩展到这些领域难度会成倍增加。另一个问题是“创新度判定”。 LLM 生成的算法到底算不算“新算法” 是结构创新还是已有方法的组合 这在学术界是一个敏感问题也需要更严格的算法分类与创新性检测机制。自愈循环也有潜在风险。 LLM 可能为了“让代码能跑”而牺牲算法逻辑甚至可能陷入“错误过拟合”不断修补错误却没有真正提升算法本身的质量。最后是代码安全与依赖风险。 自动生成代码意味着自动生成依赖这可能带来安全隐患、版本冲突、不可控行为。 未来必须加入更严格的沙箱机制与静态分析工具。工程与实践挑战生成代码的可维护性是一个现实问题。 LLM 写的代码往往缺乏注释、缺乏结构化设计、缺乏长期维护性这对工程团队来说是一个挑战。依赖漂移也是一个潜在风险。 LLM 生成的代码可能依赖某个版本的 sklearn 或 numpy一旦版本更新模型可能无法运行。 这需要更强的版本锁定与兼容性检测。运行成本也不容忽视。 自动生成算法意味着大量 LLM 调用这在工业环境中成本不低。 未来需要更高效的本地模型或缓存机制。未来研究方向OMEGA 的潜力远不止于此它可能成为“AI 科学家”的基础模块。 未来有几个方向非常值得期待。一个方向是扩展到深度学习架构生成让 LLM 不只是写 sklearn 模型而是写 PyTorch 或 JAX 的网络结构。 这将真正打开“自动化深度学习架构发现”的大门。另一个方向是引入形式化验证让生成的算法不仅能跑还能被数学证明是正确的。 这对安全关键领域尤其重要。第三个方向是构建更强的自动化评测体系不仅评测准确率还评测鲁棒性、可解释性、训练成本、推理效率等多维指标。最后一个方向是结合多智能体让多个 LLM 扮演不同角色一个负责想法一个负责代码一个负责调试一个负责评测真正形成一个“AI 研究团队”。END参考资料https://arxiv.org/pdf/2604.26211v1关于波动智能——波动智能旨在建立一个基于人类意图与反应的真实需求洞察及满足的价值体系融合人工智能与意识科学构建覆盖情绪识别、建模与推荐的智能引擎自主研发面向社交、电商等场景的多模态意图识别引擎、意图标签系统及意图智能推荐算法形成从情绪采集、意图建模到商业转化的完整解决方案。波动智能提出“意图是连接人、物与内容的新型接口”其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构赋能企业实现更高效的用户洞察与精准情绪交互推动从功能驱动到意图驱动的产业范式升级。亲爱的人工智能研究者为了确保您不会错过*波动智能*的最新推送请星标*波动智能*。我们倾心打造并精选每篇内容只为为您带来启发和深思希望能成为您理性思考路上的伙伴加入AI交流群请扫码加微信