文章核心总结与创新点主要内容文章聚焦于利用用户编辑数据(含上下文、模型响应及用户修改内容)微调大语言模型(LLMs),这类数据源于写作助手、代码工具等实际应用场景,天然具备适配性与个性化价值。研究提出包含离线学习(利用历史编辑数据集训练)和在线学习(与用户交互并以编辑成本为惩罚)的两阶段学习框架,同时将用户编辑数据拆解为监督标签、偏好反馈、成本信号三类独立反馈源,分别对应监督微调(SFT)、直接偏好优化(DPO)、强化学习(RL)三种基础算法,并通过理论推导明确了各算法的样本复杂度与适用场景权衡。最终提出两种集成策略:早期集成(联合优化多算法损失)与晚期集成(基于置信上界的在线策略选择),在邮件写作和文本摘要任务中验证了集成方法优于单一反馈源算法,且能稳健适配不同用户分布。创新点首次从理论层面系统分析用户编辑数据的学习价值,推导了SFT、DPO、RL三种算法的次优性边界与样本复杂度,明确其在不同用户类型、数据分布下的 trade-off。提出统一框架将用户编辑数据转化为三类经典反馈源,实现了偏好学习、监督学习与强化学习的有机融合,无需额外标注成本。设计早期集成与晚期集成两种策略平衡单一算法缺陷,其中晚期集成通过在线 bandit 算法动态选择最优策略,在跨用户分布场景中表现出更强的鲁棒性。拓展了实验场景,通过强弱用户设置(完整/部分偏好编辑)和跨模型用户迁移实验,验证了方法在实际应用中的适配能力。翻译部分(Markdown格式