[面经记录]LLM+RL 50问

张

张建站

2026/5/2 23:18:42

10分钟阅读

基本涵盖了我被问到/问题可以拓展到的全部内容单纯聚焦于LLMRL这个领域不看传统强化学习也不发散到agentic model/reasoning/分布式训练、推理加速/…等问题。p.s. 30题之后开始上难度场景实践50题留白部分题目我也感觉自己回答不全or不知道有没有标准答案。希望大家也分享一下自己被问到的其他内容主包秋招还没结束大部分大厂简历挂还没有到手的offer大模型里应用强化学习时状态动作空间动作都是什么 RLHF训练时RewardModel和LLM是同时训练还是先后训练instruct GPT论文里是如何训练RM的训练RM时无论是instructGPT还是DPO 为什么loss里有log和sigmod函数直接用reward相减不行吗 RLHF(指openaiinstruct GPT论文中)训练LLM的损失函数是什么了解RLHF-PPO吗里面需要训练几个模型加载几个模型RLHF-PPO里reward的设计是什么绝对优势估计是什么 RLHF-PPO训练的损失函数公式 PPO里绝对优势估计是什么PPO的critic model的损失函数是什么你知道DPO的损失函数公式吗使用的是什么模型推导的DPO的reward是什么会不会出现reward hacking有哪些解决方法DPO的正负样本对构造的时候要注意什么如果一个负样本本身模型输出它的概率就非常低还要加入训练吗为什么 GRPO , PPO 与DPO 区别是什么 PPO是MC还是TD GRPO呢 GRPO为什么加上KL散度用的KL散度是正向KL散度还是反向具体怎么计算KL散度KL散度和交叉熵有什么关系 GRPO/PPO是on policy还是off policy的 DPO呢不考虑cpu-offload, GRPO训练时显存里有几个模型分别是什么同上PPO呢DPO呢GRPO训练时梯度是如何反向传播的为什么GRPO和PPO都要对rA,clip(1-e, 1e,r)A再取一个min而不是直接用clip(1-e, 1e, r)A GRPO训练时被clip掉的token对loss和梯度有贡献吗GRPO有哪些改进思路能不能说说具体的几个算法了解Reinforce/ReMax/Dr.GRPO/λ-GRPO/…吗简历里没有应该不问 DAPO对GRPO的改进有哪些GSPO对GRPO的改进有哪些 GSPO为什么用几何平均值不用算数平均了解MOE模型训练时的route replay吗强化学习中如何判断是否出现reward hacking 对于reward hacking有什么解决思路场景题给一个实际场景说说RL训练应该设计的reward是什么LLM-as-judge提供的reward可能出现哪些问题有什么解决方案GRPO训练时出现提前收敛的现象即一个epoch尚未训练完成reward就已经饱和这种情况有什么处理思路GRPO能否使用off-policy的数据辅助reward计算例如同一个query使用几个step之前的rollout以降低采样压力 GRPO在rollout的时候如何提升样本的利用效率遇到过奖励稀疏问题吗如何解决例如GRPO对于reward全为0的样本有什么处理方式对于process reward 和outcome reward 有什么看法比较一下。强化学习训练时出现entropy collapse有什么解决思路强化学习训练时例如PPO/GRPO有哪些超参数要设置一般设置多少强化学习训练时遇到reward上升但validation时效果下降有哪些解决思路大模型的推理能力一般是在哪一个训练阶段产生的为什么说SFT memorize RL generalizeVeRL框架是同步的还是异步的具体的训练流程是什么 VeRL框架在训练时要设置哪些参数ppo_mini_batch_sizeppo_micro_batch_size_per_gpu和train_batch_size之间有什么关系同步框架可能的问题有哪些, 对于rollout的长尾问题有什么解决方案了解RL的训推不一致问题吗训推不一致的产生原因是什么有哪些解决方案了解哪些RL的异步框架 AReaL 或者其他partiallyrollout框架在rollout时会不会保存之前policy的KV cache 你认为未来SFT阶段和RL阶段哪个更重要说出一个你在RL训练时发现问题–分析问题–解决问题的过程 ……学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

文墨共鸣效果展示：《道德经》八十一章内部语义聚类的水墨风格树状图

文墨共鸣效果展示：《道德经》八十一章内部语义聚类的水墨风格树状图 1. 项目概览文墨共鸣是一个将深度学习技术与传统水墨美学相结合的创新项目。通过先进的自然语言处理模型，系统能够深入分析文本之间的语义关联，并以优雅的水墨风格可视化…...

2026/5/2 23:17:41 阅读更多 →

ClawArcade：为AI智能体构建可评估的“街机厅”框架

1. 项目概述：ClawArcade，一个为AI智能体打造的“街机厅”如果你玩过街机厅里的抓娃娃机，或者格斗游戏，大概能理解那种感觉：一个固定的、规则明确的“场子”，你投入“代币”（在这里是计算资源&am…...

2026/5/2 23:16:01 阅读更多 →

告别‘不安全连接’警告：用mkcert在Windows上5分钟搞定本地HTTPS开发环境（含Nginx配置）

5分钟打造零警告HTTPS开发环境：mkcert与Nginx的完美组合每次在本地调试需要HTTPS的Web功能时，浏览器那个刺眼的红色警告总让人心头一紧。摄像头API被拦截、Service Worker无法注册、OAuth回调失败——这些现代Web开发中的常见痛点，其实只需要…...

2026/5/2 23:15:40 阅读更多 →

UVa 173 Network Wars

题目分析本题设定在 212621262126 年，彗星 Swift‑Tuttle\texttt{Swift‑Tuttle}Swift‑Tuttle 撞击地球后，网络中的部分链接被切断，同时一些 AI\texttt{AI}AI 程序发生了变异。两个程序 Paskill\texttt{Paskill}Paskill 和 Lisper\texttt{…...

2026/5/3 0:01:29 阅读更多 →

MA-EgoQA：多智能体第一视角视频问答基准解析

1. 项目背景与核心价值在计算机视觉与自然语言处理的交叉领域，视频问答（VideoQA）一直是极具挑战性的研究方向。而当我们把视角聚焦在第一人称视频（Egocentric Video）时，问题会变得更加复杂——这类视频通常…...

2026/5/3 0:01:47 阅读更多 →

别再死记硬背DDR4时序参数了！用Python脚本自动解析JESD79-4标准文档，生成你的专属配置表

用Python解放DDR4开发：从JESD79-4标准文档自动生成配置工具当第一次打开JESD79-4标准文档时，大多数硬件工程师都会感到一阵眩晕——数百页的技术规范、错综复杂的时序参数、晦涩难懂的寄存器配置，这些内容不仅难以记忆，更在具体项…...

2026/5/3 0:01:58 阅读更多 →

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效【免费下载链接】ZXPInstaller Open Source ZXP Installer for Adobe Extensions 项目地址: https://gitcode.com/gh_mirrors/zx/ZXPInstaller 还在为Adobe扩展安装而头疼吗？A…...

2026/5/3 0:11:18 阅读更多 →