这项研究由卡内基梅隆大学、多伦多大学暨Vector研究院、伊利诺伊大学香槟分校、普林斯顿大学、康奈尔大学、东京大学、理化学研究所AIP、马克斯·普朗克智能系统研究所、欧洲安全AI研究院等多家顶尖机构联合完成于2026年5月16日以预印本形式公开发布论文编号为arXiv:2605.16865。**学AI的苦恼记住新的忘了旧的**每个认真学习过的人大概都有类似的经历——期末备考时把新知识塞满脑子结果发现上学期学的公式已经模糊一片。这个现象在人类学习中司空见惯没想到在人工智能领域同样棘手甚至更加严重。大型语言模型也就是我们常说的AI聊天助手背后的技术在经过海量数据的通识教育之后往往掌握了出色的推理能力、代码编写能力和各种常识。然而当企业想让它再学一批专属的行业知识——比如医院的诊疗规范、律所的合同条款、或者某公司内部产品手册——麻烦就来了。这种针对性的补充学习在技术上叫做有监督微调就像给已经毕业参加工作的员工做岗前培训。培训结束后员工记住了新知识却把原本会的东西忘得差不多了。研究人员把这种现象称为灾难性遗忘——名字听起来很戏剧化但现实中确实令人头疼有时候模型学完新东西之后数学、写代码、甚至基本的逻辑推理能力都会大幅下滑严重情况下留存率不到原来的百分之一。正是针对这个问题来自上述多家机构的研究团队提出了一套名为MIXSDMixed Contextual Self-Distillation混合语境自蒸馏的新方法。它的核心思路非常有意思让AI用自己的话来学习新知识而不是强迫它死记硬背别人写好的标准答案。**一、问题根源强迫AI背别人的答案**要理解MIXSD为什么有效先得搞清楚传统做法错在哪里。传统的微调方式就好比给一位中文作家发了一本英文教材要求他逐字逐句地抄写下来、背诵下来。即使教材内容本身是正确的这种一字不差地模仿外国语调的做法会迫使作家的写作习惯发生根本性改变——久而久之他原本流畅优美的中文文风就会被磨损掉。AI模型也面临同样的处境。当我们准备一批新知识喂给模型时这些知识通常是人类专家写的或者由另一个AI系统生成的。问题在于这些文字的措辞习惯、表达结构、用词偏好和被训练的模型自身的语言风格往往大相径庭。模型在学习这些外来答案时需要强行调整自己大量的参数可以理解为神经网络中无数个微小的调节旋钮这个过程就像反复拧动一块精密仪器上的各种旋钮来适应新任务很容易把原本调校好的其他设置也给破坏掉。研究团队用一个数学指标来衡量这种破坏程度叫做困惑度NLL负对数似然值。简单说这个数值代表模型对某段文字感到多陌生——数值越高说明这段文字对模型来说越像外星语言模型需要做出的调整就越剧烈对原有能力的破坏也就越大。研究发现传统方式用来训练的文字其困惑度指标平均高达5到7之间而如果换用模型自己生成的文字来训练这个数值可以降低到1至3左右差距十分显著。**二、MIXSD的解法让AI自己教自己**MIXSD的核心设计思路可以用一个场景来理解假设你要教一位出色的历史学家学习一批最新的考古发现资料。传统做法是把考古报告原文给他背他得硬啃那些他不熟悉的技术术语和格式规范。而MIXSD的做法是先让这位历史学家把考古报告读一遍然后用他自己惯常的语言风格重新讲述他从中学到的内容。这样既保留了新知识又和他原有的知识体系无缝衔接。具体到技术层面MIXSD在每次生成一个训练用的答案文字时并不直接使用人类写好的标准答案而是让模型自己动态地生成训练材料。在生成过程中每产生一个词模型有两个信息来源可以选择一个是专家视角——模型在上下文中已经看到了正确答案的提示因此能够生成体现新知识的文字另一个是朴素视角——模型只看原始问题完全凭自身已有的知识储备来生成文字。在每一步生成中系统通过一个叫做λ读作拉姆达的参数来控制比例以1减去λ的概率选用专家视角生成的词以λ的概率选用朴素视角生成的词。最终形成的训练材料是这两种视角下文字的逐词混合体——既包含了需要被记住的新知识又充满了模型自己熟悉的语言风格和表达习惯。这种自己教自己的方式天然地让训练材料贴近模型的母语大幅降低了学习时的陌生感。λ值的大小决定了两种能力之间的权衡程度。λ为0时训练材料完全来自专家视角对新知识的记忆效果最强但对原有能力的冲击也最大λ越大朴素视角的成分越多对旧能力的保护越好但记住新知识的效果会有所下降。实验表明λ设置在0.3到0.5之间通常能取得最好的综合效果。**三、怎么测试这个方法——两个专门设计的考场**为了严格评估MIXSD的效果研究团队专门构建了两个测试数据集它们在现有研究中颇具创新性因为能够排除模型预训练时偷学答案的干扰。第一个叫KGFACT知识图谱事实记忆库。研究团队凭空设计了一个虚构的世界里面有各种完全由团队自己发明的人物、地点和组织机构——比如Drymorel Foundation会培养什么职业的人或者Thaldric Route Shaper是什么角色。这些名字和关系在现实世界和互联网上根本不存在因此模型在预训练时绝对没有学过。通过这种方式团队可以精确地测量模型学会了多少真正的新知识而不是从预训练记忆中调取了多少旧知识。KGFACT分为小型版5个类别每类10个实体和大型版7个类别每类25个实体。第二个叫KGFUNC算术函数习得库。这个数据集测试的不是记忆事实而是学习新的计算规则。每道题目会给出一个神秘函数的若干输入输出示例比如E(41)8、E(45)40要求模型推断出这个函数的规律并正确计算E(87960)的值。答案通常是对数字每一位做某种运算的组合。训练时提供的答案包含了详细的逐步推理过程测试时则需要模型对全新的输入举一反三。除了这两个专属数据集研究团队还在SimpleQA一个包含4326道真实世界事实问答题的数据库上进行了测试同时还测试了模型在MQuAKE数据集上的知识编辑能力——即不只是学新知识而是修改已有的错误知识。而对于遗忘程度的衡量研究团队用了五个权威的通用能力测试数学推理领域的AIME2024竞赛题、MATH500数学题库和GSM8K小学奥数代码编写能力用HumanEval衡量综合知识理解用MMLU覆盖57个学科领域的庞大题库衡量。这五项测试的平均分就是衡量模型原有能力保留多少的核心指标。**四、实验数据说明了什么——触目惊心的对比**实验在三个规模不同的模型上进行分别是Qwen3-1.7B17亿参数、Qwen3-4B-Instruct40亿参数和Qwen3-8B80亿参数。传统微调SFT的表现可以用杀敌一千自损八百来形容而且有时候自损比例远超八百。以最小的1.7B模型在KGFACT-SMALL上的测试为例标准微调之后模型在训练知识点上的记忆准确率高达99%可谓优等生然而五项通用能力测试的平均分却从基础分56.5分骤降至14.3分只剩下约四分之一。更可怕的是在KGFUNC数据集上标准微调后的模型面对那些没在训练集里出现过的简单运算规律时准确率从31.4%跌至0.4%——几乎完全丧失了举一反三的能力。相比之下MIXSD在相同条件下的表现大幅改善。同样是1.7B模型MIXSDλ0.5在KGFACT-SMALL上能把训练准确率维持在97%而五项通用能力的平均分保留在40.3分是标准微调的近三倍。在4B模型上MIXSDλ0.5甚至能把通用能力平均分从基础的82.6分仅仅降低到77.5分而标准微调则把它拉低到了43.2分。换句话说MIXSD让模型在学会新知识的同时保留了基础能力的90%以上而标准微调只保留了约52%。在KGFUNC数据集上MIXSD的优势同样突出。Qwen3-4B-Instruct使用MIXSDλ0.3训练后不仅KGFUNC-TEST准确率达到89.1%高于SFT的72.6%举一反三的KGFUNC-UNSEEN准确率更是达到67.8%而SFT只有1.4%。五项通用能力平均分为79.2而SFT只有16.6。研究团队还与另一种叫做OPSD在线策略自蒸馏的方法进行了对比。这种方法同样属于让模型自己生成训练材料的思路但它在生成时不使用混合策略而是每次为每道题生成8个完整的候选答案然后用复杂的KL散度损失函数来指导训练。OPSD在部分情况下确实比标准微调更好但表现很不稳定——比如在1.7B模型上OPSD的通用能力平均分居然只有5.1分比标准微调的14.3分还要低。而且由于每次要生成8个完整答案OPSD的计算开销是标准微调的数倍实用性大打折扣。MIXSD只需要生成1个混合答案开销与标准微调相当却在大多数情况下取得了更好的效果。**五、为什么会遗忘——参数空间里的高速公路与乡间小道**研究团队不仅展示了MIXSD更有效还深入探究了遗忘究竟是怎么发生的这部分分析相当有洞察力。直觉上很多人会认为模型参数改变得越多遗忘就越严重。就好比一台机器拧动的旋钮越多越容易出问题。但研究团队发现这个直觉是错误的。他们用一个叫做Fisher信息矩阵的数学工具来衡量模型参数的敏感度——某个参数越敏感改动它对模型整体行为的影响就越大。把模型的参数空间想象成一个城市路网。有些道路是城市的主干道承载着大量交通流量对应高Fisher敏感度的参数稍有堵塞就会引发全城瘫痪有些是偏远的乡间小路即使完全封闭也影响不大对应低Fisher敏感度的参数。研究发现遗忘严不严重取决于的不是整体上改动了多少条道路而是有没有动到那些关键的主干道。用一个数字来体现这个发现研究测量了参数变动量与遗忘程度的相关系数对于1.7B、4B、8B三个模型这个相关系数分别只有0.34、0.02和0.10几乎没有预测力。但换用Fisher加权方向对齐度即参数变动是否集中在敏感的主干道方向上来衡量三个模型的相关系数分别升至0.56、0.82和0.57高出了数倍预测力强得多。这个发现意味着不是改变多少重要而是改变什么方向重要。标准微调由于要强行学习外来语言风格的答案往往恰恰撞上了那些最敏感的参数方向造成大规模的主干道堵塞。MIXSD因为训练材料贴近模型自身的语言习惯对参数的调整自然地回避了最敏感的方向从而在同等学习效果下造成更小的主干道冲击。**六、错误的样子也不一样——SFT的溃败有多深**除了测试分数的差距研究团队还细致地分析了两种方法在失败时错法是否有区别这个分析颇为有趣。他们把错误答案分成四种类型。第一种叫格式错误就是模型连答题的基本格式都搞不清楚了比如数学题要求给出数值答案它却给出一篇散文。第二种叫知识泄漏这是标准微调特有的怪现象模型在回答一道完全无关的数学题或常识题时答案里突然冒出了它刚学的那批虚构知识库里的人名或地名比如回答一道算术题时插入了答案是Ormavel Valley这样的胡言乱语——这说明新学的外来知识把模型的思维搞乱了开始到处乱窜。第三种叫崩溃式回答就是模型完全放弃思考直接套用训练时见过的简短模板回复比如面对任何问题都回答答案是X加上一个随便填入的数字。第四种是正常犯错就是模型有正常的思考过程但最终推理结论不对。测试结果令人印象深刻。在标准微调之后1.7B模型在MMLU测试上的所有错误答案中知识泄漏占了50.7%崩溃式回答占了48.0%而正常犯错只有0.4%。也就是说标准微调之后的模型几乎彻底失去了正常思考的能力错误要么来自混入了无关的新知识要么来自完全放弃思考。MIXSD之后的模型则截然不同知识泄漏和崩溃式回答合计占错误的比例不超过4%而正常犯错的比例高达71%以上与基础模型的错误分布高度吻合。换句话说MIXSD训练后的模型仍然保持着正常的思考模式只是偶尔想错了而不是整个思维系统都被搅乱了。**七、这个方法是否只在特定情况下有效**研究团队对MIXSD的适用范围做了多方面的验证以排除结论只在特定模型或特定任务上成立的可能性。在模型通用性方面他们在Meta公司开发的Llama-3.2-1B-Instruct模型上重复了实验。结果与Qwen系列完全一致标准微调让通用能力平均分从6.8分跌至1.4分保留20.6%而MIXSDλ0.5在相同训练精度下保留了5.3分保留77.9%。这表明MIXSD的有效性并非Qwen系列模型的特有现象而是一种更普遍的规律。在任务类型方面他们还测试了知识编辑场景——即不是学习全新的知识而是修改模型已有的错误认知。使用的是MQuAKE数据集要求模型通过多跳推理来完成知识更新。结果显示标准微调虽然能100%记住更新后的答案但通用能力平均分下降到7.8到39.4分视模型大小而定。MIXSDλ0.3在记忆准确率达到93到99%的同时通用能力平均分保留在17.6到76.0分之间4B和8B模型均保留了90%以上的通用能力。值得一提的是研究团队还把MIXSD与MEMIT一种专门为知识编辑设计的精准定位修改方法进行了比较。MEMIT的优点是对原有能力几乎没有破坏缺点是编辑准确率只有53到70%远不及MIXSD的93至99%。这种差距的原因在于当不同的知识条目涉及相同的实体时MEMIT的矩阵级别更新会相互干扰造成精度损失。MIXSD没有这个问题。**八、说到底这项研究告诉了我们什么**归根结底这项工作揭示了一个听起来朴素但颇具启发性的道理教一个人学习的最好方式是用他自己熟悉的语言和思维方式来教而不是强迫他逐字背诵一个陌生语言写成的教材。AI模型同样如此。MIXSD的贡献在于它找到了一种简单可行的方式来实现这个道理——不需要额外的老师模型不需要复杂的优化目标只需要在生成训练材料时巧妙地混入模型自己的语言习惯。这个过程成本很低只需在数据准备阶段额外做一次模型推理之后的训练流程与标准微调完全相同。对于企业和研究者来说这意味着在不大幅增加成本的前提下可以让语言模型在学习行业专属知识时更加稳健不再为了掌握新技能而牺牲原有能力。对于那些需要把通用大模型部署到医疗、法律、教育等垂直领域的应用来说这项技术有着直接的实用价值。当然这项研究也坦承了自己的局限。λ值的最优选择可能因任务不同而有所差异虽然0.3在多数情况下表现良好但并不保证对所有场景都是最优解。此外实验所用的最大模型只有80亿参数对于当前主流的数百亿乃至千亿参数模型这套方法是否同样有效仍需进一步验证。同时生成混合训练材料会带来一次性的计算成本虽然远小于OPSD那种多轮采样的方案但相较于直接使用现成答案的标准微调依然有额外开销。对这项研究感兴趣的读者可以通过arXiv编号2605.16865查阅完整论文其中包含了所有实验细节、超参数设置、误差分析和消融实验内容相当充实。---**QA**Q1MIXSD中的λ参数具体如何选择是否有通用建议A根据论文的实验结果λ设置在0.3到0.5之间通常能取得较好的综合效果。λ0.3时偏向记忆新知识λ0.5时在保留旧能力方面更有优势而λ0.7则可能明显影响对新知识的记忆准确率。论文建议以λ0.3作为默认起点再根据具体任务对记忆和保留的侧重程度进行调整。Q2MIXSD与标准SFT微调相比训练成本会增加多少AMIXSD主要的额外成本来自数据准备阶段需要对每道训练题目做一次模型推理来生成混合训练材料而非直接使用人工标注答案。这是一次性的预处理开销实际训练过程与标准微调完全相同。相比另一种基线方法OPSD每道题需要采样8次候选答案MIXSD的额外成本要小得多论文中将其描述为可接受的一次性预处理代价。Q3灾难性遗忘问题在大语言模型微调中有多普遍之前有没有其他解决方案A灾难性遗忘是语言模型微调中普遍存在的问题并非个别现象。此前已有多种应对方案弹性权重巩固EWC等正则化方法通过约束关键参数的改变幅度来保护原有能力ROME和MEMIT等知识编辑方法尝试精准定位并只修改与特定知识相关的参数检索增强生成RAG则完全绕开修改模型参数在推理时临时引入外部知识。这些方法各有优缺点MIXSD的独特之处在于从训练数据本身的分布出发直接降低学习过程对模型参数的破坏性冲击。