1. 为什么“训练-蒸馏”是大模型面试高频题1.1 蒸馏解决的不是“能不能训练”而是“能不能低成本落地”大模型越做越强但真实落地时会遇到一个很现实的问题大模型效果好却不一定适合所有线上场景。它可能推理慢、显存占用高、调用成本贵也不一定适合端侧部署或高并发服务。知识蒸馏正是为这个矛盾而生让一个更强的教师模型把能力迁移给一个更小、更快、更便宜的学生模型。这样线上服务可以用小模型承担大部分请求既保留相当一部分能力又降低成本和延迟。1.2 面试官真正想听什么这道题表面上问“什么是知识蒸馏”实际上想看你是否理解四件事第一蒸馏为什么有效第二Teacher-Student 怎么训练第三大模型时代的蒸馏和传统分类蒸馏有什么不同第四像 Qwen3 这类模型如何把强模型能力迁移到轻量模型。2. 什么是知识蒸馏核心思想是什么2.1 用一句人话解释知识蒸馏知识蒸馏就是让一个能力更强的教师模型指导一个更小的学生模型训练。学生不只是学习训练集里的标准答案还会学习教师模型的输出习惯、概率分布、推理过程甚至工具调用策略。如果用生活化比喻就是“名师带徒弟”徒弟不是只抄标准答案而是观察老师为什么这么判断、哪些答案更接近、遇到复杂问题怎么拆解。2.2 蒸馏为什么比普通监督训练多了一层信息普通监督训练通常只有硬标签。比如一张图片是“猫”标签就是猫其他类别都是 0。这个标签只告诉模型最终答案却没有告诉模型“狗和猫更像汽车和猫完全不像”。教师模型输出的软标签或 logits 则更丰富。它可能认为猫的概率最高狗也有一点概率狐狸更低汽车几乎没有。这些相对关系就是“暗知识”能够帮助学生学到更细的决策边界。3. 蒸馏训练到底优化什么3.1 学真实答案也学老师的判断分布最常见的蒸馏训练学生会同时学习两类信号。第一类是真实标签让学生知道最终答案是什么第二类是教师模型的输出分布让学生知道老师如何看待不同候选答案之间的关系。在大模型场景里蒸馏信号还可以更丰富。例如老师生成完整回答学生用 SFT 学习老师给出每个 token 的 logits学生做分布对齐老师生成思维链和工具调用轨迹学生学习复杂任务的解决路径。3.2 Temperature 可以怎么理解Temperature 可以理解成让老师的输出分布变“柔和”的旋钮。温度较高时概率分布会更平滑学生更容易看到非正确类别之间的相似关系温度太低时输出会过于尖锐更像硬标签。4. 常见蒸馏类型有哪些4.1 Response Distillation最容易落地Response Distillation 是大模型时代最常见的方式之一。教师模型先生成高质量回答学生模型再用这些回答做监督微调。这种方式不一定需要拿到教师 logits工程门槛较低适合快速训练领域小模型。4.2 Logit Distillation信息更细但成本更高Logit Distillation 让学生对齐教师在每个 token 上的输出分布。它比只学习最终文本更细因为学生能看到教师对很多候选 token 的偏好。但缺点是成本更高需要访问教师 logits训练和存储也更复杂。4.3 Reasoning / Policy Distillation大模型和 Agent 场景更常见如果任务是数学、代码、复杂推理或 Agent 工具调用只蒸馏最终答案可能不够。此时更需要蒸馏推理步骤、思维链、工具调用轨迹、状态转移和偏好策略让学生不仅知道“答案是什么”也知道“过程怎么走”。5. 什么是弱-强蒸馏Teacher-Student Distillation5.1 先澄清一个容易混淆的说法面试里有时会听到“弱-强蒸馏”“强弱蒸馏”“Teacher-Student Distillation”这些说法。严格来说模型压缩和大模型小型化里最常见的是 Strong-to-Weak Distillation也就是强模型做 Teacher弱模型或小模型做 Student。如果题目明确写 Teacher-Student通常就按“强师弱生”来理解最稳强教师提供更高质量的监督信号学生模型学习后获得更强能力同时保持低成本推理优势。5.2 Teacher-Student 蒸馏的核心流程第一步选教师。教师可以是大模型、模型集成或者经过完整后训练的强模型。第二步构造任务数据让教师在这些任务上生成监督信号。第三步过滤和清洗教师输出避免把错误知识传给学生。第四步用学生模型学习教师输出。第五步评估学生是否在目标场景里达到了“效果够用、成本更低”的目标。6. 大模型蒸馏数据怎么构建6.1 数据质量决定蒸馏上限很多人以为蒸馏就是让大模型生成一批答案然后小模型照着学。实际上这只是最粗糙的版本。高质量蒸馏数据至少要考虑任务覆盖、难度分布、领域比例、语言风格、格式规范和边界场景。如果数据只覆盖简单问答学生就很难学会复杂推理如果数据只来自某一个领域学生就容易偏科如果教师输出里有错误、重复、风格漂移学生也会照单全收。6.2 蒸馏数据的典型构建流程比较稳的流程是先构建任务池再让教师生成答案或 logits然后做自动过滤和人工抽检再进行样本平衡最后送入学生训练。对于数学、代码等可验证任务还可以用测试用例或标准答案做自动校验。7. Qwen3 强弱蒸馏的流程是什么7.1 Qwen3 为什么需要强到弱蒸馏Qwen3 系列包含不同规模的 Dense 和 MoE 模型。对于旗舰模型可以走完整的后训练流程包括长思维链冷启动、推理强化学习、思考模式融合和通用强化学习。但如果每个小模型都完整跑一遍类似流程训练成本和开发成本都会非常高。因此Qwen3 技术报告里强调了 Strong-to-Weak Distillation用大模型的知识提升轻量模型目标是简化小模型后训练流程同时让小模型也具备更好的思考 / 非思考模式控制能力。7.2 可以把 Qwen3 强到弱蒸馏理解成“两阶段捷径”第一阶段是 Off-policy Distillation。可以理解成学生先不自己探索而是直接学习教师已经生成好的高质量输出。例如教师在 thinking 与 non-thinking 两种模式下生成样本学生先通过这些样本学会基本能力和模式切换。第二阶段是 On-policy Distillation。可以理解成学生开始在自己的输出分布上生成样本然后再对齐教师模型给出的更细粒度信号比如 logits 分布。这样做的好处是训练数据更贴近学生自己真实会生成的轨迹而不是完全依赖教师预生成样本。7.3 为什么这个流程比直接给小模型做完整后训练更划算对小模型来说完整后训练非常贵而且不一定稳定。强到弱蒸馏等于让大模型先走复杂训练路线再把结果传给小模型。学生不用从零探索所有能力而是沿着教师已经验证过的方向学习因此更省 GPU、更省开发时间也更容易得到稳定收益。8. 蒸馏效果怎么评估8.1 不能只看“学生像不像老师”蒸馏成功不等于学生完全复制老师。真正要看的是学生是否比原来的小模型更强是否明显比教师模型更快更便宜是否在目标业务场景里稳定可用。所以评估至少要看四类指标质量、效率、稳定性和安全。质量包括准确率、Pass1、代码通过率、人类偏好胜率效率包括延时、吞吐、显存和单次成本稳定性包括多轮一致性和格式遵循率安全包括幻觉率、拒答边界和有害内容过滤。9. 面试高频追问建议这样回答9.1 什么是知识蒸馏核心思想是什么答知识蒸馏就是用一个能力更强的教师模型指导一个更小的学生模型训练。学生不仅学习真实标签还学习教师输出的软标签、logits、完整回答、推理过程或策略偏好从而在更低成本下获得接近教师的能力。9.2 什么是 Teacher-Student Distillation答Teacher-Student 是最典型的蒸馏框架。Teacher 通常更大更强Student 更小更快。Teacher 提供监督信号Student 学习后用于低成本部署。9.3 什么是强到弱蒸馏和弱到强有什么区别答强到弱蒸馏是强模型教弱模型常用于模型压缩和小模型增强弱到强则是另一类语境可能指用弱监督或弱模型信号引导更强模型。面试里如果和 Teacher-Student 同时出现通常按强到弱理解更稳。9.4 Qwen3 强弱蒸馏流程怎么讲答Qwen3 中强到弱蒸馏用于优化轻量模型后训练。强教师模型先经过完整训练流程学生模型再通过两阶段蒸馏获得能力第一阶段 off-policy学习教师预生成的 thinking / non-thinking 输出第二阶段 on-policy学生自己生成样本再对齐教师 logits 或分布让学生在自身轨迹上继续提升。9.5 蒸馏有什么风险答风险包括教师错误被学生继承、学生过拟合教师风格、数据覆盖不足导致泛化差、logit 蒸馏成本高、评估只看平均分忽视边界场景。工程上要通过数据过滤、任务覆盖、离线评测、线上反馈和安全校验来控制风险。10. 总结蒸馏的本质是把“高成本能力”变成“低成本能力”如果把这组题浓缩成一句话那就是知识蒸馏不是简单复制答案而是让学生模型学习教师模型的概率分布、推理习惯、回答风格和策略偏好从而用更小的模型获得更接近大模型的效果。在传统深度学习里蒸馏更多强调 soft labels 和 logits在大模型时代蒸馏扩展到了完整回答、思维链、工具轨迹、偏好策略和 on-policy 数据。Qwen3 强到弱蒸馏就是一个典型例子强模型走完整训练路线小模型通过 off-policy 和 on-policy 蒸馏快速继承能力。真正高质量的面试回答不是只说“教师模型教学生模型”而是要讲清蒸馏信号是什么、数据怎么构建、训练怎么做、效果怎么评估、风险怎么控制。只要这条线讲顺训练-蒸馏这组题就会显得非常扎实。附30 秒面试快答模板“知识蒸馏就是用强教师模型指导小学生模型训练让学生在更低成本下接近教师能力。学生不只学硬标签还会学教师的软标签、logits、完整回答、推理过程或策略偏好。Teacher-Student 蒸馏通常是强到弱用大模型提升小模型。Qwen3 的强到弱蒸馏用于轻量模型后训练先通过 off-policy 学习教师在 thinking / non-thinking 模式下的输出再通过 on-policy 让学生在自己的生成轨迹上对齐教师分布。评估时不能只看分数还要看延时、成本、稳定性和安全。”