汽车陶瓷油漆环保与美观的完美结合
标题Decoupled DiLoCo for Resilient Distributed Pre-training来源arXiv, 2604.21428v1️文章简介研究问题如何在大规模语言模型预训练中打破严格的同步屏障以解决因硬件故障或节点延迟导致的整体计算停滞问题主要贡献论文提出了 Decoupled DiLoCo 框架通过将集群分解为独立的异步学习器并引入中心同步器在保持模型性能的同时实现了极高的训练可用性和容错率。重点思路将全局集群划分为多个独立的“学习器”各自执行局部内部优化步骤无需等待其他节点即可完成计算。设计中央同步器异步接收参数片段采用最小法定人数机制聚合更新自动绕过故障或缓慢的学习器。引入自适应宽限窗口和动态令牌加权合并策略利用通信空闲时间纳入更多节点更新平衡样本效率与系统吞吐量。应用混沌工程原则模拟大规模硬件故障验证系统在持续中断下的零停机运行能力及模型最终质量。分析总结在模拟百万级芯片的激进故障环境下该方法能维持 88% 的有效吞吐量而传统弹性数据并行方法仅能达到 58%。通过文本和视觉任务的多项基准测试证明无论是稠密架构还是混合专家模型其下游性能均与传统同步训练相当。系统能够无缝整合异构硬件资源有效屏蔽不同代际芯片的速度差异避免因最慢节点拖累整体进度。实验表明增加独立学习器的数量可显著缩小故障影响范围使系统在大规模集群中实现接近 100% 的运行时间。个人观点论文的将分布式系统的可用性优先原则引入深度学习预训练将硬件故障的“爆炸半径”限制在单个学习器内。