这项由首尔国立大学数据科学研究生院主导的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.06105有兴趣深入了解的读者可以通过该编号查询完整论文。每次你问AI一个问题它都要先把你给它的所有材料从头到尾读一遍然后才开始回答。这个读材料的过程在AI技术里叫做预填充Prefill而随后逐字生成答案的过程叫做解码Decode。当你给AI的材料特别长比如一份几万字的合同、一本书或者一段长达十几万字的代码库时这个读材料的过程会变得极度耗时耗电而且AI在回答每一个字时都要反复翻阅之前存下来的所有笔记速度越来越慢内存占用也越来越大。首尔国立大学的研究团队提出了一个听起来有点反直觉的解决思路AI在读材料时只需要在大脑的底层区域做详细笔记到了大脑的高层区域就可以把这些材料笔记扔掉只保留自己正在写的答案部分。他们把这个方法叫做SPEED全称是浅层预填充、深层解码Shallow Prefill, dEEp Decode。实验结果显示这个方法在保持AI答题质量几乎不变的情况下让AI回答第一个字的速度提升了33%回答每一个后续字的速度提升了22%占用的记忆空间减少了25%。---一、为什么AI读长文章这么费劲要理解这个研究解决了什么问题得先明白AI是怎么处理信息的。现代的大型语言模型比如大家熟悉的各类聊天AI在结构上是一座多层楼大厦。以这篇论文用的Llama-3.1-8B模型为例这座大厦有32层。信息从第1层输入一层一层往上处理最后从第32层输出答案。当你给AI一段很长的文字材料时AI会先把这段材料的每个词语在这座大厦的每一层楼都做一份钥匙和锁的记录专业上叫KV缓存Key-Value Cache。你可以把它理解成每个词在每一层楼都留了一份档案。一段128000个词的文章乘以32层楼就是海量的档案存储量。更麻烦的是当AI开始生成答案时它每生成一个新词都要去翻阅材料里所有词的档案——而且要翻阅所有32层楼的档案。这就好比一个学生在考试写作文时每写一个字都要把整本参考书的每一页重新翻看一遍效率极低而且书越厚越慢。研究人员观察到一个关键现象AI在高层比如第25层到第32层对材料内容的关注度远比在中低层时要低得多。用一张热力图来看AI在中间层对材料的注意力非常集中但到了高层这种注意力几乎消失了AI的高层主要在关注它自己正在生成的答案词语之间的关系。这就像一个厨师在做一道复杂菜肴时在备料阶段低层需要频繁查阅食谱但等到出锅装盘阶段高层厨师早已把食谱内容融会贯通这时候只需要关注手中正在进行的操作而不需要每次动手前都回头看一眼食谱。研究团队由此产生疑问既然高层几乎不看材料档案那这些高层的材料档案还有必要存在吗---二、核心设计只在低楼层存档高楼层只看自己的进度SPEED的核心设计思路简洁而大胆。在一栋32层的大厦里研究团队让材料词语只在低楼层比如前24层建立档案到了高楼层第25层到第32层这些材料词语的档案就不再存入记忆。而AI自己生成的答案词语则从第1层到第32层全部建立档案一层不少。从存储的角度来看这个改变非常直接。原本需要为每个材料词语存储32层档案现在只需要存24层节省了25%的材料档案空间。而且在AI生成答案的过程中高层楼完全不需要去翻阅材料档案只需要在底层翻阅材料档案在所有层翻阅自己之前写过的答案档案。这直接加快了生成每个词的速度。研究人员为这个设计起了一个形象的名字框架。他们把材料词语分成两类普通材料词语以及锚点Anchor。锚点是一种特殊的材料词语即使在高楼层也保留它的档案。在SPEED的主要版本中研究团队只保留了一个锚点就是每段对话最开头的那个特殊符号——序列起始符Beginning of Sequence简称BoS。为什么需要这个BoS锚点早期实验发现如果完全没有任何材料档案保留到高层AI在刚开始写答案的最初几个词时高层楼里几乎什么参考都没有容易产生混乱比如会陷入重复循环不断重复同样的词句。加入这个BoS锚点之后就像给AI在高楼层留了一个始终可见的坐标原点AI能稳定地知道当前对话的起点在哪里生成答案就更加稳定可靠。用一个具体的类比来说这就好比一个人在记忆宫殿里背诵一篇长文章。在宫殿的低层房间里他为文章的每个细节都建立了精细的记忆锚点。进入宫殿的高层房间时他不再需要逐字对照原文只需要记住自己已经背到了哪里以及整个宫殿的大门在哪里BoS锚点。他生成答案的高层思维完全可以在这个框架内自如运转。---三、三种方案的对比谁存了什么档案为了说清楚SPEED跟普通AI以及其他方案的区别研究团队做了一个清晰的对比框架。他们把参与处理的词语分成四类BoS起始符、其余材料词语X、之前已生成的答案词语以及当前正在生成的词语。在普通的全注意力模式Full-Attn下无论是低楼层还是高楼层AI都能看到所有这四类词语的档案完全不做任何区分。在不带锚点的SPEED版本里低楼层仍然能看到全部四类词语的档案但高楼层只能看到之前生成的答案词语和当前词语的档案材料词语包括BoS的高层档案全部移除。而在带BoS锚点的SPEEDBoS版本里低楼层同样看到全部内容高楼层则能看到BoS、之前的答案词语和当前词语唯独普通材料词语X的高层档案被移除。这个对比揭示了一个微妙但重要的区别SPEEDBoS并非完全切断了高层与材料的联系而是保留了一个极轻量的材料存在感——仅仅是那个BoS符号。这个最小化的锚点设计在后续实验中被证明是一个极其关键的稳定因素。---四、与其他省钱方案的对比省的地方不一样在AI推理效率这个领域已经有不少研究者提出了各种省钱方案。研究团队特别点名对比了两个同类方向的方法叫做SwiftKV和POP都是在K24这个参数设置下进行比较的。SwiftKV的思路是高层楼的材料档案不是自己建的而是从低层楼的档案变换而来本质上还是把材料档案存到了高层只是换了个廉价的制作方式。POP的思路是在处理材料阶段跳过高层楼的计算直接把材料信息投射到高层但生成答案时高层仍然可以读取这些材料档案。对比实验数据非常直观地说明了区别所在。在处理完材料、输出第一个答案字的速度TTFT首字延迟上这三种方法在K24时的提速幅度差不多都在33%到35%之间。但是在生成每个后续答案字的速度TPOT每字生成时间上SwiftKV和POP在这个实验环境下并没有提速甚至略有下降而SPEED在128K长度的材料时提速了22%。在内存占用上SwiftKV减少了12.5%POP完全没有减少而SPEED减少了25%。这个差异的根源正在于SPEED的独特设计它不只是加快了读材料的速度还减少了生成答案时的高层档案读取量。前两者改变的是材料处理阶段的工作方式却没有改变生成答案时高层仍然要翻阅材料档案这一事实。SPEED则根本性地把材料档案从高层的答案生成视野中移除让高层生成答案时更轻松快捷。---五、实验一从头训练结果怎样为了严格验证SPEED的效果研究团队做了一个非常严谨的对照实验。他们从Llama-3.1-8B的原始基础模型出发用完全相同的数据、完全相同的训练参数分别训练了普通的全深度指令调优模型Full-IT和各种SPEED变体。唯一的变量就是材料词语档案的深度限制。训练数据来自一个名为Tulu风格的指令调优数据集包含约178502个样本每个模型都训练两轮。评估方面研究团队在一套覆盖知识、推理、代码、数学和指令遵循五大类别共11个具体基准测试的体系上进行了全面测试。实验结果相当令人鼓舞。Full-IT的平均分是51.4分而IT-SPEED-24BoS即材料档案只建到第24层的BoS锚点版本得到了51.2分仅仅差了0.2分。换句话说把材料档案深度砍掉25%之后AI的综合答题能力几乎没有损失。BoS锚点的作用在数字上体现得非常清楚同样是K24的截断深度不带BoS锚点的版本得了49.1分而加上BoS锚点之后直接跳到51.2分足足提升了2.1分而且这一提升完全不影响效率指标。这意味着那个小小的起始符号在高层楼里的存在价值远超其本身的微小计算成本。不同任务类别对材料档案深度的敏感程度也有明显差异。代码类任务表现出惊人的稳健性即使在极端激进的K16设置材料档案只建到第16层砍掉了一半深度下代码得分仍然保持在接近满深度的水平。数学和指令遵循类任务则相对敏感在K16时有明显下降。知识类和推理类任务在加入BoS锚点后获益最大说明这两类任务需要一个稳定的材料参考点但不需要所有材料的高层全深度档案。在效率数字上128K超长材料场景下IT-SPEED-24BoS的表现如下首字生成速度比Full-IT快33%后续每字生成速度快22%活跃KV缓存内存减少25%。这三项指标同时改善而不是拿质量换速度是这个方法最重要的特点。---六、实验二轻量级适配不从头训练行不行从头用大量数据训练一个模型的成本很高。研究团队也测试了一条更轻便的路径从已经训练好的Llama-3.1-8B-Instruct指令模型出发只用极少量的特定任务数据做一轮LoRA微调一种只更新模型参数的极小子集的微调技术然后应用SPEED的材料档案截断策略。这个实验的场景是用HotpotQA这个多跳文档问答数据集的伪标注训练数据做一轮微调然后评估模型在HotpotQA、TriviaQA、NaturalQuestions和S-NIAH一种合成的长上下文检索测试上的表现。实验结果表明适度的SPEED截断与完整深度的LoRA微调相比差距非常小。具体来说OffShelf-FT-SPEEDBoS-24在HotpotQA上得到59.5/73.7的精确匹配/F1分数在TriviaQA上得到81.4/86.5在S-NIAH上得到99.6而完整深度LoRA在这三项上分别是60.8/75.3、80.5/86.0、97.7。其中有趣的是SPEED版本在TriviaQA和S-NIAH上反而略高于完整深度LoRA说明SPEED适配并非简单地以质量换效率在某些场景下甚至能略有超越。由于训练数据来自HotpotQATriviaQA和S-NIAH的结果可以看作是泛化迁移能力的检验。SPEED版本在这些非训练任务上的表现说明它保留了文档问答和长上下文检索的基本能力而不只是在训练任务上过拟合。---七、逐层诊断为什么偏偏K24是个好选择选择在第几层截断材料档案不能靠拍脑袋。研究团队做了一套逐层诊断分析通过观察Full-IT模型在生成答案时每一层的行为特征来理解不同层次在处理信息时的职能分工。他们重点观测了三个指标。第一个是注意力质量生成中的答案词语在各层对材料词语的注意力总量反映AI在这一层有多在意材料内容。第二个是条件提示熵把注意力重新归一化在材料词语范围内计算信息熵熵越低说明AI对材料的关注越集中、越有选择性而不是漫无目的地均匀分布在所有材料词语上。第三个是表示稳定化追踪隐藏状态在各层之间的轨迹曲率变化曲率趋于平稳意味着信息处理趋于稳定这个指标的峰值层通常反映了模型对当前信息达成稳定理解的位置。诊断结果揭示了一个重要的规律。对于推理类和知识类任务注意力总量在第1层就达到峰值但条件提示熵直到第13、14层才降到最低点。这意味着低层对材料的关注是广泛而模糊的而有选择性地精准提取关键材料信息要到中间层才完成。表示稳定化的峰值则更晚出现在第17到19层。这个规律解释了为什么K16不够好虽然它覆盖了注意力峰值层但在选择性材料提取完成之前就截断了留给消化理解阶段的层次太少。K20好一些但表示稳定化峰值之后的缓冲层数还不充足。K24则完整覆盖了从广泛关注到精准选择再到表示稳定的全过程并且在截断点之后还有一定的缓冲余地。K28则更保守质量与Full-IT几乎没有差异但效率提升也相应减小。代码类任务是一个明显的例外。它的注意力峰值和条件提示熵最低点都在第3层就出现了意味着代码任务的关键材料提取发生得很早。这与实验结果完全吻合代码类得分在各种截断深度下都保持稳健。这说明不同任务对材料档案深度的需求确实不同K24是一个在广泛任务上都表现良好的折中选择而不是一个对所有任务都绝对最优的通用答案。---八、拆解实验高层的答案词语之间的对话能省掉吗SPEED移除了高层的材料档案但保留了高层答案词语之间的相互注意力。有人可能会问既然高层不看材料了那高层答案词语之间的相互联系是不是也可以省掉呢研究团队设计了一个SelfOnly变体来回答这个问题。SelfOnly和SPEED一样截断了材料的高层档案但更进一步让高层的每个词只能看自己看不到其他答案词语加上可选的BoS锚点。实验结果明确否定了这种进一步简化的可行性。SelfOnly-24BoS的平均分是47.2分而IT-SPEED-24BoS是51.2分相差整整4分所有类别都有明显下降。这说明高层答案词语之间的相互注意力是不可或缺的——AI在高层楼里虽然不需要翻阅材料档案但它确实需要能看到自己已经写了什么并且在此基础上考虑下一步怎么写。这个发现澄清了SPEED效率提升的真正来源省掉的是高层反复翻阅大量材料档案这部分开销而不是高层答案词语之间的推理思考。后者无论如何都不能省这也是为什么SPEED强调深层解码——答案生成部分在所有层都保持完整的计算深度。---九、稳定性测试会不会变成复读机研究团队还专门分析了一个容易被忽视的失效模式AI是否会因为高层缺乏材料参考而陷入重复生成同样词语的循环俗称复读机现象。他们定义了一个精确的检测标准检查每个生成输出的最后256个词如果某个连续重复的片段长度达到12个词以上并且重复了至少3次就被标记为一次后缀重复循环。数据结果显示不带BoS锚点的SPEED-24版本后缀重复循环率达到2.1%对比Full-IT的0.4%在PopQA和GSM数学题上尤为明显分别达到10.3%和3.1%。而加上BoS锚点之后IT-SPEED-24BoS的循环率降至0.7%非常接近Full-IT的基准水平。这再一次印证了那个微小的BoS锚点在维持生成稳定性上的关键作用。---十、长文章鲁棒性超长材料时会不会垮掉研究团队还评估了SPEED在不同材料长度下的表现鲁棒性特别是针对极长材料场景。他们使用了TriviaQA自然变化长度的文档问答和S-NIAH合成的超长上下文检索测试材料长度最长约13万词两个测试集按材料长度分桶统计精确匹配得分。结果显示IT-SPEED-24BoS和IT-SPEED-28BoS在各个长度段上都与Full-IT保持接近没有出现随着材料长度增加而明显下滑的趋势。即使在最长的64K到128K段SPEED的中等截断版本仍然保持了较好的检索和问答能力。只有K16的激进截断版本在较长材料时出现了明显下降这与主实验的结论一致。---十一、训练效率的意外收获虽然SPEED主要是为了改善推理效率而设计但研究团队也顺带测量了在下游LoRA微调训练阶段的效率影响。结果发现SPEED在训练时也能带来显著的吞吐量提升。在同等硬件配置下IT-SPEED-24BoS的训练速度比完整深度版本快约29%从2213.8 tokens/s/GPU提升到2863.1 tokens/s/GPUGPU时长从8小时19分钟缩短到6小时26分钟。有意思的是GPU峰值内存的降低非常有限从63.4GB降到61.6GB说明训练时的主要收益来自计算速度而不是内存节省这与推理时的效率改善来源略有不同。---十二、局限性与边界条件研究团队对这个方法的局限性保持了相当坦诚的态度。他们明确指出SPEED的行为取决于截断深度K的选择、锚点设计、适配方式、材料和答案的长度、任务分布以及模型架构并非在所有场景下都能无缝使用。当前所有实验都在32层的Llama-3.1-8B架构上进行评估的截断深度只有K16、20、24、28这几个固定值还没有测试自适应深度策略也没有在其他架构规模或其他类型的模型上验证。此外论文中的质量评估是控制条件下的多次运行结果对比并非统计等价性测试小幅差距需要理解为当前实验设置下的证据而不是浅层预填充完全无损的证明。在实际部署方面实测的TTFT和TPOT提升依赖于具体的推理栈实现。论文中的效率数字是在单卡、批量为1的标准配置下测量的如果结合连续批处理、前缀共享、推测解码等更复杂的服务系统实际提升幅度可能有所不同需要在目标部署环境下重新评估。---说到底SPEED做的事情其实是一次关于什么值得记忆、什么不值得记忆的重新审视。大多数现有的AI加速方案都在想办法把已经存下来的笔记压缩得更小或者更快地翻笔记而SPEED直接问了一个更根本的问题有些笔记从一开始就不需要存在高层为什么还要存答案是对于超过四分之一深度的楼层材料笔记确实可以不存。只需要留一个最简单的起点标记作为锚点AI就能在这些高层楼里专注地推敲自己正在写的答案而不用每次都拖着厚重的材料档案箱往返。这对普通用户意味着什么每次你用AI处理一份超长文档、做长篇问答或者分析大段代码时背后的计算资源和等待时间都有机会通过这类方法显著降低。当AI服务变得更便宜更快速时受益的是每一个有需求的人。如果你对这个研究方向感兴趣可以思考这样一个有趣的延伸问题如果不同的任务类型比如代码、数学、知识问答对材料档案深度的需求确实不一样未来是否可以让AI根据问题类型自动选择最合适的截断深度而不是对所有问题都用同一个K值这个方向在论文中被明确列为未来工作目前还没有答案但这或许就是下一步研究的有趣起点。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2605.06105查阅完整原文。---QAQ1SPEED方法是否需要重新训练AI模型才能使用ASPEED有两种使用路径。最佳效果需要从基础模型重新进行指令调优训练在训练时就告诉模型材料词语只在低层建档这样模型能完全适应这种限制。但研究也发现从已有的指令模型出发只做一轮轻量级LoRA微调只更新模型参数的极小子集也能获得接近的效果不必从头训练。不建议直接把训练好的普通模型在推理时强行使用SPEED这种事后硬切的方式在K24时质量下降非常明显。Q2SPEED方法中BoS锚点为什么只保留一个符号就够用了A这个问题的答案体现在两组对比数据里。不带BoS锚点的K24版本平均分49.1加上BoS后跳到51.2提升了2.1分同时后缀重复循环率从2.1%降到0.7%。研究认为BoS作为序列的第一个符号在模型训练中始终是一个稳定的参考点高层能看到它就相当于始终知道当前对话从哪里开始足以提供基本的定向稳定性不需要保留整个材料的高层档案。Q3SPEED在不同类型任务上效果差异大吗代码任务为什么特别不怕截断A差异确实存在。代码任务在K16截掉一半深度时仍然保持接近满分的表现而数学和指令遵循类任务在K16时下降明显。逐层诊断解释了这一点代码任务的关键材料提取发生在极早的第3层之后模型对材料的关注已经完成了精细化处理高层保不保留材料档案影响不大。相比之下知识推理类任务的精细材料选择要到第13、14层才完成需要更深的材料档案才能稳定。