2025_NIPS_Principled Fine-tuning of LLMs from User-Edits: A Medley of Preference, Supervision, and R

张

张建站

2026/5/6 2:47:19

10分钟阅读

2025_NIPS_Principled Fine-tuning of LLMs from User-Edits: A Medley of Preference, Supervision, and R

文章核心总结与创新点主要内容文章聚焦于利用用户编辑数据（含上下文、模型响应及用户修改内容）微调大语言模型（LLMs），这类数据源于写作助手、代码工具等实际应用场景，天然具备适配性与个性化价值。研究提出包含离线学习（利用历史编辑数据集训练）和在线学习（与用户交互并以编辑成本为惩罚）的两阶段学习框架，同时将用户编辑数据拆解为监督标签、偏好反馈、成本信号三类独立反馈源，分别对应监督微调（SFT）、直接偏好优化（DPO）、强化学习（RL）三种基础算法，并通过理论推导明确了各算法的样本复杂度与适用场景权衡。最终提出两种集成策略：早期集成（联合优化多算法损失）与晚期集成（基于置信上界的在线策略选择），在邮件写作和文本摘要任务中验证了集成方法优于单一反馈源算法，且能稳健适配不同用户分布。创新点首次从理论层面系统分析用户编辑数据的学习价值，推导了SFT、DPO、RL三种算法的次优性边界与样本复杂度，明确其在不同用户类型、数据分布下的 trade-off。提出统一框架将用户编辑数据转化为三类经典反馈源，实现了偏好学习、监督学习与强化学习的有机融合，无需额外标注成本。设计早期集成与晚期集成两种策略平衡单一算法缺陷，其中晚期集成通过在线 bandit 算法动态选择最优策略，在跨用户分布场景中表现出更强的鲁棒性。拓展了实验场景，通过强弱用户设置（完整/部分偏好编辑）和跨模型用户迁移实验，验证了方法在实际应用中的适配能力。翻译部分（Markdown格式

如何快速搭建B站视频解析API：5步实现高效视频资源获取

如何快速搭建B站视频解析API：5步实现高效视频资源获取【免费下载链接】bilibili-parse bilibili Video API 项目地址: https://gitcode.com/gh_mirrors/bi/bilibili-parse Bilibili-parse是一款基于PHP开发的B站视频解析工具，让你能够轻松获取B站…...

2026/4/11 19:24:11 阅读更多 →

09-开关电源滤波设计

1.开关电源滤波设计-差模干扰 （1）LISN电源传导干扰（CE）测试的仪器，CE测试的频率范围为：150kHz到30MHz，其本质是噪声电流，将噪声电流转换为噪声电压来测量。 1uF和50uH，…...

2026/5/5 19:09:24 阅读更多 →

Ext2Read：突破系统壁垒的Linux分区读取工具全攻略

Ext2Read：突破系统壁垒的Linux分区读取工具全攻略【免费下载链接】ext2read A Windows Application to read and copy Ext2/Ext3/Ext4 (With LVM) Partitions from Windows. 项目地址: https://gitcode.com/gh_mirrors/ex/ext2read 如何突破Windows与Linux的…...

2026/4/11 19:24:13 阅读更多 →

UVa 173 Network Wars

题目分析本题设定在 212621262126 年，彗星 Swift‑Tuttle\texttt{Swift‑Tuttle}Swift‑Tuttle 撞击地球后，网络中的部分链接被切断，同时一些 AI\texttt{AI}AI 程序发生了变异。两个程序 Paskill\texttt{Paskill}Paskill 和 Lisper\texttt{…...

2026/5/5 10:29:12 阅读更多 →

MA-EgoQA：多智能体第一视角视频问答基准解析

1. 项目背景与核心价值在计算机视觉与自然语言处理的交叉领域，视频问答（VideoQA）一直是极具挑战性的研究方向。而当我们把视角聚焦在第一人称视频（Egocentric Video）时，问题会变得更加复杂——这类视频通常…...

2026/5/5 10:29:14 阅读更多 →

别再死记硬背DDR4时序参数了！用Python脚本自动解析JESD79-4标准文档，生成你的专属配置表

用Python解放DDR4开发：从JESD79-4标准文档自动生成配置工具当第一次打开JESD79-4标准文档时，大多数硬件工程师都会感到一阵眩晕——数百页的技术规范、错综复杂的时序参数、晦涩难懂的寄存器配置，这些内容不仅难以记忆，更在具体项…...

2026/5/5 10:29:15 阅读更多 →

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效

Adobe扩展安装难题如何解决？ZXPInstaller让.zxp文件安装变得智能高效【免费下载链接】ZXPInstaller Open Source ZXP Installer for Adobe Extensions 项目地址: https://gitcode.com/gh_mirrors/zx/ZXPInstaller 还在为Adobe扩展安装而头疼吗？A…...

2026/5/5 10:29:17 阅读更多 →