这项由哈佛大学联合谷歌DeepMind与谷歌研究院共同完成的研究以预印本形式于2026年6月15日发布在arXiv平台论文编号为arXiv:2606.16517。研究涵盖了超过100个生物推理模型的系统性训练与评估实验是目前针对生物领域AI后训练阶段最为系统深入的对照研究之一。生物医学AI是当下最热门的研究前沿之一。我们已经看到各种AI系统声称能够预测蛋白质结构、识别致病基因、帮助寻找药物靶点。然而这些系统背后有一个几乎从未被认真追问的问题把模型训练得越久、喂给它越多数据它真的会变得越来越聪明吗现实情况远比这复杂。哈佛大学的研究团队花了大量时间系统地训练和测试了超过100个生物推理模型用覆盖DNA、RNA和蛋白质三种生物分子类型的任务严格验证了每个训练阶段究竟对模型能力产生了什么影响。他们的结论颠覆了很多人的直觉更多的训练不一定带来更好的泛化能力关键在于训练的方式以及不同训练阶段如何搭配组合。要理解这项研究可以用烹饪作为贯穿始终的类比。训练一个能真正理解生物学的AI就像培养一位有真才实学的大厨而不只是一个能背菜谱的机器人。研究团队想搞清楚的是学厨的三个阶段——基础烹饪理论课、反复练习固定菜谱、以及在不同餐厅临场发挥——各自对大厨最终的本事有什么影响练得越多在陌生厨房里就越厉害吗答案并不那么简单。一、为什么生物学是测试AI泛化能力的最难考场在数学和编程领域当你训练AI解数学题大多数陌生题目其实跟训练题有相似的结构只是换了数字或变量名。但生物学不一样。在生物世界里一条没见过的代谢通路、一种未曾研究过的疾病、一个来自不同物种的蛋白质可能涉及的是完全不同的生化机制和分子互动逻辑。就好比你在中餐厅学会了炒菜未必就知道怎么做法式酱汁——两者的底层逻辑差异可能远超表面看起来的样子。这意味着一个在训练集上表现完美的生物AI模型换到它没见过的生物系统时很可能直接翻车。而且更棘手的是你在熟悉的题目上练习越多模型可能越来越擅长认菜谱而不是真正学会做菜的道理。这种现象研究团队称之为过度专化——模型越来越适应训练数据的分布却离真实生物世界的复杂多样性越来越远。研究团队为三类任务分别设计了严格的熟悉域内和陌生域外测试。域内测试就像考你在训练餐厅里做过的菜域外测试则是把你扔到一个完全陌生的厨房让你用没见过的食材做没做过的料理。这种区分让他们能够精确捕捉到每一轮额外训练究竟是让AI真的更聪明了还是只是更擅长考试了。二、三位训练教练各司其职却并非缺一不可研究团队把训练分成三个依次进行的阶段分别对应不同的目标和功能。第一个阶段叫做持续预训练CPT。在这一阶段模型并不去做具体的生物学任务而是大量阅读各类生物学文本——论文摘要、科普文章、专业文献等等。这就像大厨入行前先花时间广泛阅读食谱书、了解食材知识、建立对烹饪世界的基础认知而不是上来就开火炒菜。这个阶段培养的是生物语言感觉让模型理解蛋白质、基因、通路这些词汇的上下文含义。第二个阶段叫做监督微调SFT。这是最直接的题海战术训练给模型看大量标准的问答样本让它学着模仿正确答案的形式和内容。比如这个基因突变会引发什么疾病然后给出标准答案让模型反复学习。这就像让大厨反复练习同一批经典菜肴直到动作娴熟、出品稳定。第三个阶段叫做强化学习RL。这个阶段不再给模型看标准答案而是让它自己尝试给出答案然后根据答案的好坏给予奖惩反馈驱动模型不断改进。这就像让大厨在真实的评分比赛中历练通过客人的即时反应来磨练真正的临场判断力而不是背书本答案。三个阶段听起来顺理成章但研究团队真正想弄清楚的是这三个阶段是不是简单地叠加就能带来更好的效果每增加一个阶段模型是否都在变得更好三、监督微调是把双刃剑学得越多却越固执研究团队进行了一系列精心设计的实验每次只改变一个变量保持其他条件不变。关于监督微调阶段的发现是整项研究中最出人意料的部分之一。在固定训练数据量、只增加训练轮次的情况下研究团队发现了一个清晰的规律随着训练轮次的增加模型在熟悉题目上的表现持续提升但在陌生题目上的表现却在某个节点之后开始下滑。以DNA通路预测任务为例一个模型在训练了1轮之后熟悉题目的准确率约为68%陌生题目约为68%两者旗鼓相当。但随着训练增加到16轮熟悉题目的准确率爬升到了90%而陌生题目的准确率在2到4轮时达到了约73%的峰值此后便开始回落最终跌回到68%左右。用烹饪来解释这个现象非常直观。一个大厨如果在同一家餐厅里反复练习同一批菜练到后来他确实越来越擅长做这几道菜但他对这家餐厅的食材、火候、摆盘习惯产生了深度依赖。把他换到别的厨房他可能反而比刚入行时更不适应——因为他已经把这家餐厅的做法当成了做菜的真理。这种现象在生物学AI里尤其危险因为真正有价值的是模型能否在陌生的生物系统里保持推理能力。这个发现在RNA药物靶点识别和蛋白质功能预测任务中同样出现甚至表现得更为明显。RNA实验中模型陌生任务的准确率从峰值到训练结束时下降了约18个百分点且下降过程几乎是单调连续的而不是在某个点达到平台后维持稳定。研究团队还做了另一组实验保持训练轮次固定为1轮但逐步增加训练数据量。结果发现这种方式比增加训练轮次要温和得多。随着数据量从4000个样本增加到20000个模型在陌生题目上的表现基本呈现稳定上升或平台趋势而不会出现先升后降的崩塌现象。这说明同样多的训练算力花在看更多不同例子上比花在反复看同样的例子上对泛化能力的伤害要小得多。研究团队将这个核心发现归纳为监督微调能快速提升模型在训练分布上的表现但随着训练深度增加模型会逐渐收缩到训练数据的分布范围内失去面对生物多样性时的灵活性。四、强化学习是解药但需要在正确的时机服用既然监督微调会造成过度专化强化学习能不能修复这个问题研究团队的答案是肯定的——但有条件。研究团队从每个任务中挑选出监督微调的最佳检查点也就是陌生任务表现最好时的模型状态然后在此基础上继续进行强化学习训练观察结果如何变化。实验结果相当令人鼓舞在DNA、RNA和蛋白质三种任务上强化学习几乎都同时提升了熟悉任务和陌生任务的表现而且陌生任务的提升幅度往往更大。以蛋白质功能预测任务为例从第1轮强化学习到最佳检查点陌生任务的评分F值用于衡量预测质量提升了约0.08个绝对值这在生物信息学领域是相当可观的进步。更重要的是强化学习带来的改善并没有以牺牲熟悉任务表现为代价——两个方向都在变好只是陌生方向的进步更显著。还有一个规律值得注意强化学习的收益集中在最初几轮。也就是说第1轮的提升最明显之后每增加一轮额外收益就越来越小。这就像一个大厨在真实比赛中的前几场历练获益最大之后提升逐渐趋缓。这个规律给出了一个实用的操作建议强化学习不需要无限增加在合适的时机停止反而是明智之举。然而研究团队也发现强化学习的效果高度依赖于出发点的质量。如果监督微调阶段做得太差直接进入强化学习模型可能无法从反馈信号中有效学习。好比一个连基本刀工都没学会的厨师去参加高级评分比赛没有任何基础的话客人的评分对他来说也是噪音不知道怎么改进。强化学习需要一个够好的监督微调起点才能发挥出真正的威力。五、最被低估的准备工作持续预训练是隐形的地基在三个训练阶段中持续预训练往往是最容易被忽视的一环因为它不直接解决任何具体任务看起来像是绕路。但研究团队的实验数据清楚地表明这个绕路阶段对后续一切训练的质量都有深远影响。在DNA和RNA实验中研究团队分别比较了有持续预训练和没有持续预训练两条路线下的最终模型表现。结论是持续预训练在几乎每一个后续训练阶段都带来了可见的提升但这个提升的幅度因阶段不同而差异巨大。在监督微调阶段改善相对有限但在强化学习阶段尤其是在陌生任务上持续预训练的加持带来了显著更大的收益。对于规模较小的模型如参数量为17亿的版本这个效果尤为明显。在DNA任务的陌生测试中有持续预训练的模型比没有预训练的版本整体提升了约0.2个准确率单位——这不是小数字。研究团队的解释是没有经过生物学语言熏陶的通用语言模型在面对监督微调和强化学习时需要同时学习三件事生物学语言规范、任务的格式要求、以及真正的推理逻辑。把三件事同时塞给模型每件事都学得不够透彻。持续预训练先把生物学语言感觉建立起来让后续训练可以专注于更高层次的推理能力培养。这个发现特别适用于计算资源有限的研究团队与其把全部预算花在反复监督微调上不如先拨出一部分算力做持续预训练为后续的强化学习打好地基最终的陌生任务表现往往更好。六、更大的模型只是把上限抬高并不改变游戏规则一个自然的疑问是如果换用更强大的基础模型上述这些规律是否还成立研究团队在RNA任务上专门针对这个问题做了实验额外引入了谷歌DeepMind的Gemma 4 E2B模型作为对照与两个Qwen3系列模型1.7亿和4亿参数一起比较。结果颇具说服力。不同底层模型的绝对表现存在差异——更强的基础模型确实能达到更高的性能上限。但训练动态的基本形态保持一致监督微调仍然导致熟悉任务提升、陌生任务先升后降的模式强化学习仍然更有效地改善陌生任务表现。Gemma模型在某些情况下的强化学习阶段表现得更为平稳不像较小的Qwen模型那样在开始强化学习时会出现短暂的性能回落但这只是幅度和流畅度上的差异而非本质规律的改变。用烹饪来类比把一个普通人和一个天赋异禀的厨艺学徒放在同样的培训流程里天赋更好的那个最终水平更高但两个人都会经历练一道菜越来越熟练、但越来越不会举一反三的阶段区别只在于更有天赋的人这个阶段来得晚一些、回落幅度小一些。这个发现有一个实用意义如果你没有条件使用最大最强的模型你仍然可以通过合理配置训练策略来最大化模型的泛化能力而不必把所有赌注压在用更大的模型这一条路上。七、容量分配的艺术强化学习需要轻装上阵研究团队还深入研究了一个更细节的技术问题在模型的可训练参数量上监督微调和强化学习分别应该分配多少这涉及到一种叫做LoRA的技术——简单来说这是一种让大模型局部更新的方法通过控制调整层的大小称为秩来控制模型改变自身的幅度。研究团队系统地测试了不同的秩组合。结论是监督微调阶段需要较高的秩更大的调整空间而强化学习阶段反而在较低的秩下表现更好。具体来说监督微调用256的秩、强化学习用16的秩比两个阶段都用64的秩效果更好。这个规律直觉上也说得通。监督微调要教会模型理解任务格式、生物学专业知识和推理模式需要足够的容量来吸收这些多样化的信息。但强化学习的任务是在已有知识基础上微调决策策略如果给了太大的调整空间反而容易过拟合把奖励信号学歪了。小幅精准的调整比大幅粗放的调整更能保留模型已经建立起来的生物推理能力。回到厨师比喻学习菜谱和技术时你需要大量笔记和笔记本高秩但在比赛中临场调整风格时只需要在脑子里做几个细微的修正低秩如果这时候还一直在翻阅笔记、大幅改变做法反而会手忙脚乱。八、如何在固定预算内取得最好的熟悉-陌生平衡最后研究团队还做了一个非常实用的实验把总训练步数固定为8步然后测试不同的监督微调与强化学习步数比例看哪种分配方案能带来最好的综合表现。结果清楚地显示最优方案既不是全部用监督微调也不是全部用强化学习而是在中间某个合适的比例。具体来看用1到3步做监督微调、剩余步数全部做强化学习是陌生任务表现最好的配置范围。如果把大部分步数都花在监督微调上陌生任务表现会显著下滑如果完全不做监督微调、直接上强化学习模型也因缺乏基础而表现不佳。用一个直观的说法先用少量时间建立任务基础剩余时间全力练习临场应变比把大部分时间用来反复练习固定菜谱、只留少量时间临场发挥要聪明得多。监督微调负责打底、建立框架强化学习负责破圈、拓展边界两者缺一不可但比例至关重要。在数据固定、只变步数比例的情况下DNA任务中Qwen3-1.7B和Gemma模型都在2步监督微调6步强化学习附近取得了陌生任务的峰值准确率约78%左右而8步全部监督微调时陌生任务准确率约71%8步全部强化学习时陌生任务准确率更低约62%。这种差距在RNA任务上体现得更为明显。说到底这项研究最核心的贡献不是某个新算法或新模型而是一套系统性的训练智慧。三个训练阶段并不是简单地越多越好——持续预训练是铺底的地基监督微调是建立任务能力的主体结构强化学习是帮助模型真正破墙而出、应对真实世界多样性的最后一道工序。关键在于每个阶段都有其适合的比例和参数设置盲目地加大任何一个阶段的投入都可能以牺牲另一维度的能力为代价。这对生物医学AI领域的实际从业者意味着什么意味着在有限的计算资源下花时间思考怎么训练比单纯追求训练多少更有价值。意味着在发布一个生物AI模型时不能只看它在熟悉数据上的漂亮分数而必须认真评估它在陌生生物系统上的表现。归根结底一个只会在训练数据范围内表现出色的生物推理模型在真正面对未知疾病、未知基因、未知物种时很可能无从下手。而那才是生物医学AI真正需要解决的问题。感兴趣的读者可以在arXiv平台通过论文编号arXiv:2606.16517查阅完整论文也可以访问研究团队在GitHub上开源的代码库和Hugging Face上的模型检查点自行复现或扩展这些实验。QAQ1生物AI模型训练时监督微调做多少轮合适A研究发现监督微调并非越多越好。在固定数据量下陌生任务的表现通常在2到4轮时达到峰值之后随训练轮次增加反而下滑。如果目标是让模型在未见过的生物系统上也能泛化建议早停监督微调之后转入强化学习阶段。DNA任务实验中16轮时熟悉任务准确率达90%但陌生任务已从73%的峰值回落至68%。Q2强化学习为什么能提升生物AI的泛化能力A强化学习通过让模型自己尝试并接受奖惩反馈来优化策略而不是模仿固定答案因此不会像监督微调那样把模型锁定在训练数据的分布里。实验显示在强监督微调检查点基础上进行强化学习陌生任务表现能获得显著提升而且大部分收益集中在最初几轮无需无限增加训练量。Q3持续预训练对生物推理模型有多大影响A影响相当显著尤其是对较小的模型。实验中有持续预训练的Qwen3-1.7B在DNA陌生任务上比无预训练版本提升了约0.2个准确率单位。其作用在于提前让模型建立生物学语言感觉使后续监督微调和强化学习能专注于更高层次的推理能力而不必同时处理语言和任务两个维度的学习压力。