这项研究由三星人工智能蒙特利尔实验室、米拉魁北克人工智能研究院、蒙特利尔理工学院、蒙特利尔大学、麦吉尔大学及三星韩国人工智能中心联合完成于2026年4月发布在预印本平台arXiv论文编号为arXiv:2604.04356v1感兴趣的读者可以通过这个编号查询完整论文。一个摆在所有人面前的现实困境正在悄悄改变我们使用AI的方式。当最顶级的大型语言模型动辄拥有数百亿乃至上千亿个参数时把这些模型部署到实际产品里就变得极其昂贵——不是因为它们运算起来慢而是因为它们太重了光是存放在内存里就已经让大多数机器喘不过气。研究团队正是为了解决这个塞不进去的根本问题提出了一种名为REAMRouter-weighted Expert Activation Merging路由器加权专家激活合并的新方法。这套方案的核心思路可以用一个简单的比喻来理解当一家公司需要裁员缩减规模时有两种做法——一种是直接解雇部分员工另一种是把职责相近的员工合并成一个综合岗位让一个人承担原来多人的工作。REAM选择的正是第二条路而整篇研究都围绕着这个合并而非解雇的核心理念展开。一、为什么大模型会有这么多专家他们又为何会变成负担要理解这项研究首先需要了解一种叫做专家混合Mixture-of-Experts简称MoE的模型结构。普通的大语言模型在处理每一个词时都会让所有的计算单元全部参与工作。而MoE模型则聪明得多——它内部有大量被称为专家的子网络每次处理一个词时只激活其中一小部分专家其余的专家则保持待命状态。这就像一家大型医院虽然科室众多但每个病人只需要挂几个相关科室的号不必让全院所有医生都来会诊。这种设计让模型的实际运算量保持在较低水平但却能通过海量专家积累起令人惊叹的总知识量。目前最先进的一些MoE模型比如Qwen3每层竟然拥有128个专家而每次处理一个词只激活其中8个。这意味着模型的知识储备极为丰富但同时所有128个专家的参数都必须完整地存放在内存里哪怕绝大多数时候它们都在打盹。这就造成了一个矛盾运算量不大但内存占用巨大。对于那些拥有数百乃至上千亿参数的最顶级模型这种内存压力足以让大多数机构望而却步。研究人员发现这些数量庞大的专家并非都物尽其用。许多专家的行为高度相似彼此之间存在大量冗余就像医院里挂了太多科室但功能严重重叠一样。这一发现为瘦身提供了理论基础如果能识别出哪些专家在做重复的事就可以安全地合并或删减它们同时保留模型的核心能力。二、解雇还是兼并两种瘦身思路各有利弊在此之前学术界主要有两种压缩MoE模型的思路可以用企业重组来类比。第一种叫做专家剪枝Expert Pruning直接翻译就是裁员——把那些被认为不重要的专家直接从模型中删除。这种方法简单粗暴但代价是被删除的专家所掌握的全部知识就此消失如果某个任务恰好依赖这些不常用的专家性能就会明显下降。在研究开展之前最先进的剪枝方法是来自另一个团队的REAPRouter-weighted Expert Activation Pruning路由器加权专家激活剪枝它通过评估每个专家对模型输出的实际贡献大小来决定删除谁比单纯看被调用次数的旧方法聪明许多。第二种叫做专家合并Expert Merging对应企业重组里的业务合并——把功能相近的专家的参数取加权平均生成一个融合了多个专家知识的新专家。这种方法的好处是不会丢弃任何知识坏处是如果合并的决策不够精准把两个其实专长不同的专家强行凑在一起反而会产生一个四不像的杂牌专家比原来的任何一个都差。REAP曾指出之前的合并方法存在一个技术缺陷合并后需要同时处理控制专家调度的路由器权重而旧有合并方法处理这一问题的方式会引入不可避免的误差。基于这一论据REAP团队得出结论认为剪枝优于合并。然而研究团队认为这个结论并不公平——不是因为合并的思路本身有问题而是因为之前的合并方法确实太粗糙了。如果能把合并做得足够精细同样可以在保留知识的同时避免引入过大误差。REAM正是在这个信念下诞生的。三、REAM的四把手术刀精细合并的完整方案REAM并非单一的技巧而是由四个相互配合的核心组件构成的完整体系每一个都针对之前方法的具体短板进行了改进。第一个组件是更聪明的相似度测量。判断哪两个专家应该被合并需要先衡量它们有多相似。之前的方法通常只看专家的输出结果有多接近或者只看路由器给它们的调度分数有多相似。REAM把这两个维度加在一起形成一个综合相似度指标。更关键的是在计算输出相似度时REAM引入了路由器给每个专家打分的置信度作为权重——如果路由器认为专家A在处理某类词时非常重要给了高分那么专家A在这类词上的输出就应该被赋予更高的权重。这就像评估两个员工有多像时不仅要看他们交出的作业内容是否相近还要考虑他们各自被委以重任的情况。一个经常被委以重任的员工和一个只是偶尔被叫来帮忙的员工即便表面工作内容相似本质贡献也大不相同。第二个组件是伪剪枝分组策略这是REAM最核心的创新之一。之前的合并方法通常会把所有专家均匀地分成若干大小差不多的组每组合并成一个。这就像把一个班的学生随机分成几个小组强制每组出一个代表。REAM的做法截然不同首先根据重要性分数选出最重要的专家作为组长组长的数量就等于压缩后想保留的专家总数。然后从最重要的组长开始依次把最相似的非组长专家吸纳进来但每个组长最多只能吸纳固定数量的成员。由于实际需要被吸纳的普通专家数量压缩掉的那些远远少于所有组长的总吸纳容量结果就是只有少数几个组长拥有一到多个成员大多数组长根本没有成员独自成为一个单人组。这种结构和剪枝非常像——大多数重要专家保持原状只有少部分专家把与自己最相似的几个同事的知识吸收进来而不是所有专家都被迫与别人融合。这就是伪剪枝名字的来源形式上是合并效果上接近剪枝但同时保留了被压缩专家的知识而不是直接丢弃。第三个组件是双轨对齐权重校准。合并两个专家的参数时不能直接把对应位置的参数加权平均因为两个专家的内部神经元可能以不同的顺序排列——就像两张乐谱虽然是同一首曲子但音符的排列顺序不同直接叠加只会产生噪音。正确的做法是先找到两份乐谱中对应音符的正确匹配关系再进行合并。这个匹配过程叫做排列对齐。之前的方法要么只看神经元的权重参数有多相似要么只看神经元在实际数据上的激活模式有多相似。REAM把这两种信息结合起来一个神经元对要匹配不仅要在权重上相近还要在实际使用时表现得相似。单独用权重匹配会忽略模型实际运行时的规律单独用激活匹配则可能因为某批数据的巧合而误判两者结合才能做出最可靠的配对决策。第四个组件是顺序合并流程。普通的合并方法会先对模型做一次完整的正向计算收集所有层的统计信息然后一口气压缩所有层。但这里存在一个问题当第一层被压缩后它输出的数据就不再和原来一样了这意味着基于原始模型收集的第二层统计信息已经过时——因为第二层实际收到的输入已经发生了变化。REAM的解决方案是一层一层地做压缩完一层后立刻用更新后的这一层重新计算一遍得到新的输出数据然后再把这份更新后的数据交给下一层使用。这就像在翻新一栋楼时不是先画好所有楼层的施工图再统一开工而是翻新完一层后根据实际施工结果调整下一层的方案。这个流程需要对每一层多跑一遍数据对于一个拥有数十层的大模型来说时间成本大约从1小时增加到1.5小时但换来的是更准确的压缩质量。研究团队认为考虑到合并只需做一次这点额外时间完全值得。四、校准数据一个被忽视却至关重要的变量REAM的整个压缩流程是数据驱动的——无论是评估专家重要性还是计算专家相似度都需要喂给模型一批校准数据通过观察模型在这批数据上的行为来做决策。这里存在一个深刻的隐患如果校准数据里没有代码那么代码相关的专家可能因为从来没被激活而被误判为不重要进而被吸收或删除。等到用户真正让模型写代码时才会发现性能惨不忍睹。研究团队在这方面做了极为细致的探索。他们使用三类数据源的混合作为校准集C4通用网页文本代表日常语言理解NuminaMath代表数学推理The-Stack-Smol代表代码生成。他们设计了十种不同的混合比例从极度偏重数学、几乎不含代码到极度偏重代码、几乎不含数学全面测试了校准数据组成对最终压缩效果的影响。评估则从两个维度展开。一类是判断题式的多项选择MC测评包括WinoGrande、ARC推理挑战、BoolQ、HellaSwag、MMLU、OpenBookQA和RTE共八个任务考察的是模型的通用知识和理解能力。另一类是问答题式的生成型GEN测评包括IFEval指令遵循、AIME25竞赛数学、GSM8K小学数学文字题、HumanEval代码生成、GPQA-Diamond博士级科学问答和LiveCodeBench实时代码评测共六个任务考察的是模型在实际应用场景中的真实能力。实验结果揭示了一个出乎意料却逻辑自洽的规律对于REAM、REAP和频率剪枝这三种依赖数据的方法校准数据中通用文本C4的比例越高模型在选择题测评上的表现越好但在生成型测评上的表现却越差两者呈现出强烈的负相关关系。反过来代码数据的比例越高生成型测评越好选择题测评越差。数学数据则两边的影响都很微弱这说明数学推理能力在模型内部是分散存储的而不是集中在少数几个专家身上所以调整数学数据比例并不能系统性地改变哪些专家被保留。这意味着在实际部署中选择什么样的校准数据就等于在选择我希望这个压缩后的模型擅长什么。这是一把双刃剑——给了用户定制化压缩的能力但也意味着没有任何一种校准数据组合能同时在两类测评上达到最优。五、关键结论REAM在大多数情况下优于竞争对手在25%压缩率从128个专家压缩到96个的设定下REAM使用最优校准比例数学代码5:5时在生成型测评上的平均分达到69.8分而未压缩的原始模型得分为70.9分——差距仅有1.1分。这个结果意味着经过REAM处理后模型实际上损失的能力极其有限完全在可接受范围之内。与REAP相比REAM在生成型任务上整体表现更好在指令遵循IFEval和实时代码评测LiveCodeBench上尤为突出。REAP使用最优校准比例时的生成型平均分为68.6分比REAM低了1.2分。另一个合并方法基准HC-SMoE得分为67.4分更低一些而频率剪枝方法只有67.6分。研究团队还引入了一个叫做超体积HypervolumeHV的指标来综合衡量各方法在所有校准比例下的整体表现空间。可以把它理解为在选择题分数和生成题分数构成的二维坐标系上一种方法在所有可能的校准比例下所能覆盖的最大面积。REAM的超体积为920.3高于REAP的878.0和HC-SMoE的853.3频率剪枝的只有429.7。更重要的是REAM有7种校准比例达到了帕累托最优即没有任何其他校准比例能同时在两类测评上都超过它而HC-SMoE只有2种。这说明REAM不是在某个特殊的幸运比例下侥幸表现优秀而是在整个校准空间里都保持了竞争力。HC-SMoE的情况则颇为耐人寻味。由于它的分组决策几乎不依赖校准数据所以不论用什么数据校准它的表现都差不多——对应在坐标图上就是所有点紧密聚集在一个小区域里几乎没有波动。这种稳定性看似优点实则说明它根本无法从有针对性的校准数据中获益用户无法通过调整校准数据来为特定任务优化它的表现。在50%压缩率从128个专家压缩到64个的更激进设定下REAM依然保持了最大的超体积910.7但此时REAP的超体积931.4略高说明在极端压缩场景下两者的相对优劣开始接近REAM的优势有所收窄。六、换一批模型测试REAM的泛化能力经受考验研究团队没有满足于在单一模型上验证REAM还在三个更大规模的模型上重复了实验以检验这套方法是否真的具有普适性。在拥有512个专家、800亿参数的Qwen3-Coder-Next上压缩掉25%专家后REAM在生成型测评上的平均分达到72.9分与未压缩的原始模型完全持平——这是一个令人印象深刻的近乎无损压缩的结果。在数学竞赛题AIME25上REAM的得分80.0分与原始模型一致而REAP只有70.0分。在代码生成HumanEval上REAM和REAP都达到了94.5分甚至略微超过了原始模型的92.7分——这说明专注于代码领域的校准数据能帮助压缩方法更好地保留代码专家某种程度上实现了局部性能提升。在800亿参数、同样有512个专家的Qwen3-Next-80B-A3B-Instruct上REAM压缩后的平均分为71.5分高于REAP的69.6分而原始模型为72.9分。在1060亿参数、128个专家的GLM-4.5-Air上REAM得73.9分REAP得71.9分原始模型为77.1分。在所有三个模型上REAM都一致地超越了REAP这强烈表明REAM的优势不是针对特定模型结构的过拟合而是来自方法本身更合理的设计。值得注意的是博士级科学问答GPQA-Diamond在所有模型和所有方法上都出现了明显的性能下降说明这类需要深度专业知识的任务对专家压缩特别敏感是未来研究需要重点关注的领域。七、逐一拆解哪个组件贡献最大为了搞清楚REAM的四个组件各自贡献了多少研究团队做了消融实验——每次去掉一个组件观察性能如何变化。影响最大的是用于判断专家重要性的REAP显著性得分。如果把它替换成简单的调用频率生成型平均分会骤降8.7分。这再次证实了一个结论一个专家被调用的次数多不代表它重要关键是它每次被调用时实际贡献了多少——被路由器打了很高分但产出的输出变化量很小的专家实际贡献可能远不如那些被打分不高但每次输出影响力极大的专家。第二大影响来自相似度计算中的路由器置信度加权。去掉这个权重后生成型平均分下降5.9分整体平均下降4.0分。这印证了一个直觉两个专家即便在某些词上的输出很像如果路由器对它们的置信度差异巨大一个是核心专家一个是边缘专家它们处理的实际任务范围就大相径庭强行合并的代价会很高。去掉伪剪枝分组策略退化为简单的均等分组会导致整体平均下降3.6分说明分组方式对合并质量有实质性影响。去掉路由器调度分数相似度这一维度只保留专家输出相似度会导致整体平均下降1.4分去掉顺序合并流程则下降1.0分。影响最小的是激活权重双轨对齐去掉权重那一轨只用激活对齐只下降0.5分但研究团队仍然认为这是有意义的稳定性贡献。如果把所有组件全部拿掉REAM就退化为最简单的MC-SMoE合并方法。研究团队还做了一项有趣的排名分析他们测量了压缩后的模型在输出层之前的特征向量的数学秩可以理解为信息的丰富程度和多样性然后看这个指标和最终测评分数的相关性。结果发现REAM的特征向量秩与测评分数的相关系数高达0.95是所有方法中最高的而且规律性最强。这意味着如果你想预测哪种校准数据组合能带来最好的压缩效果只需要计算压缩后模型的特征向量秩就能得到可靠的答案根本不用跑完整的测评——这为未来快速筛选最优校准方案提供了一条廉价的捷径。说到底这项研究真正回答的问题不是删除还是合并哪个更好而是如何把合并做得足够精细让它真正超越删除。REAM给出的答案是合并需要同时考虑路由器的调度逻辑和专家的实际输出、需要用伪剪枝而非均等分组来决定谁和谁合并、需要在参数对齐时同时参考权重和激活两个维度、还需要在逐层压缩时实时更新后续层的输入数据。把这四件事都做对了合并出来的精简模型就能在大多数任务上追平甚至接近原始的完整模型。还有一个关于MC和GEN分数之间trade-off的发现值得记在心里选择题测评表现好并不等于生成题测评好两者在依赖的专家类型上存在根本性差异。没有任何一种校准数据能同时把两类性能都推到最高。这意味着在实际应用中部署一个压缩模型之前最好先想清楚这个模型主要用来做什么然后选择对应的校准数据类型而不是寄希望于一个万能的压缩配方。对于关注这个领域的读者完整的实验数据和代码已经在GitHub和HuggingFace平台公开可以通过论文编号arXiv:2604.04356v1查询详细信息。QAQ1REAM和REAP有什么本质区别为什么REAM在生成型任务上更强AREAP是直接删除评分低的专家被删除专家的知识就此消失REAM则是把评分低的专家合并进最相近的重要专家里知识被保留下来。这使得REAM在生成型任务如写代码、解数学题上更有优势因为这些任务往往依赖一些平时不常被调用、但在特定场景下极为关键的专家。在Qwen3系列模型的25%压缩测试中REAM的生成型平均分比REAP高出约1至2分。Q2校准数据的选择对MoE模型压缩效果影响有多大A影响极大。以Qwen3-30B模型为例用不含代码数据的校准集压缩后HumanEval和LiveCodeBench的得分可能接近零换成代码比例较高的校准集同样的方法可以让这两项得分恢复到90分以上前后差距超过40分。通用文本数据有利于选择题测评代码数据有利于生成型测评两者之间存在根本性的此消彼长关系无法同时最大化。Q3REAM的伪剪枝分组和普通合并分组有什么不同A普通合并分组通常把所有专家均等地分成大小差不多的若干小组每组合并成一个。REAM的伪剪枝则先选出最重要的专家作为组长组长数量等于目标专家数然后让每个组长最多吸纳固定数量的相似专家。由于需要被吸纳的普通专家总数远少于组长的总容量大多数组长根本没有成员独自存在只有少数组长真正吸收了其他专家。这让REAM的结果更接近剪枝——大多数重要专家保持原状同时又保留了被压缩专家的知识。