[面经记录]LLM+RL 50问
基本涵盖了我被问到/问题可以拓展到的全部内容单纯聚焦于LLMRL这个领域不看传统强化学习也不发散到agentic model/reasoning/分布式训练、推理加速/…等问题。p.s. 30题之后开始上难度场景实践50题留白部分题目我也感觉自己回答不全or不知道有没有标准答案。希望大家也分享一下自己被问到的其他内容主包秋招还没结束大部分大厂简历挂还没有到手的offer大模型里应用强化学习时状态动作空间动作都是什么 RLHF训练时RewardModel和LLM是同时训练还是先后训练instruct GPT论文里是如何训练RM的 训练RM时无论是instructGPT还是DPO 为什么loss里有log和sigmod函数 直接用reward相减不行吗 RLHF(指openaiinstruct GPT论文中)训练LLM的损失函数是什么 了解RLHF-PPO吗里面需要训练几个模型加载几个模型RLHF-PPO里reward的设计是什么绝对优势估计是什么 RLHF-PPO训练的损失函数公式 PPO里绝对优势估计是什么PPO的critic model的损失函数是什么 你知道DPO的损失函数公式吗使用的是什么模型推导的DPO的reward是什么会不会出现reward hacking有哪些解决方法DPO的正负样本对构造的时候要注意什么如果一个负样本本身模型输出它的概率就非常低还要加入训练吗为什么 GRPO , PPO 与DPO 区别是什么 PPO是MC还是TD GRPO呢 GRPO为什么加上KL散度用的KL散度是正向KL散度还是反向具体怎么计算KL散度KL散度和交叉熵有什么关系 GRPO/PPO是on policy还是off policy的 DPO呢不考虑cpu-offload, GRPO训练时显存里有几个模型分别是什么 同上PPO呢DPO呢GRPO训练时梯度是如何反向传播的 为什么GRPO和PPO都要对rA,clip(1-e, 1e,r)A再取一个min而不是直接用clip(1-e, 1e, r)A GRPO训练时被clip掉的token对loss和梯度有贡献吗GRPO有哪些改进思路能不能说说具体的几个算法了解Reinforce/ReMax/Dr.GRPO/λ-GRPO/…吗简历里没有应该不问 DAPO对GRPO的改进有哪些GSPO对GRPO的改进有哪些 GSPO为什么用几何平均值不用算数平均 了解MOE模型训练时的route replay吗强化学习中如何判断是否出现reward hacking 对于reward hacking有什么解决思路场景题给一个实际场景说说RL训练应该设计的reward是什么LLM-as-judge提供的reward可能出现哪些问题有什么解决方案GRPO训练时出现提前收敛的现象即一个epoch尚未训练完成reward就已经饱和这种情况有什么处理思路GRPO能否使用off-policy的数据辅助reward计算例如同一个query使用几个step之前的rollout以降低采样压力 GRPO在rollout的时候如何提升样本的利用效率遇到过奖励稀疏问题吗 如何解决 例如GRPO对于reward全为0的样本有什么处理方式 对于process reward 和outcome reward 有什么看法比较一下。 强化学习训练时出现entropy collapse有什么解决思路强化学习训练时例如PPO/GRPO有哪些超参数要设置一般设置多少强化学习训练时遇到reward上升但validation时效果下降有哪些解决思路大模型的推理能力一般是在哪一个训练阶段产生的为什么说SFT memorize RL generalizeVeRL框架是同步的还是异步的具体的训练流程是什么 VeRL框架在训练时要设置哪些参数ppo_mini_batch_sizeppo_micro_batch_size_per_gpu和train_batch_size之间有什么关系同步框架可能的问题有哪些, 对于rollout的长尾问题有什么解决方案了解RL的训推不一致问题吗训推不一致的产生原因是什么有哪些解决方案 了解哪些RL的异步框架 AReaL 或者其他partiallyrollout框架在rollout时会不会保存之前policy的KV cache 你认为未来SFT阶段和RL阶段哪个更重要说出一个你在RL训练时发现问题–分析问题–解决问题的过程 ……学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】