2025_NIPS_On the Overlooked Structure of Stochastic Gradients
文章总结与翻译一、主要内容本文聚焦深度学习中随机梯度的两大核心议题,通过正式统计检验与实证分析,澄清争议并发现新结构,具体内容如下:随机梯度噪声(SGN)重尾性争议调和:针对SGN是否具有重尾性的矛盾观点,提出区分维度方向梯度(dimension-wise gradients)和迭代方向梯度(iteration-wise gradients)。通过柯尔莫哥洛夫-斯米尔诺夫(KS)检验和皮尔逊卡方(χ²)检验发现:维度方向梯度因各向异性呈现幂律重尾分布,而迭代方向梯度(即小批量采样导致的真实SGN)在常见批量大小(如B≥30)下更接近高斯分布(轻尾),且批量越大,高斯性越显著。随机梯度协方差的幂律结构发现:突破以往研究对随机梯度协方差结构的认知,首次通过实证与统计检验证明,随机梯度的协方差谱普遍存在幂律结构。该结构在不同模型(LeNet、FCN、ResNet18)、数据集(MNIST、CIFAR-10/100、非图像数据集Avila)、批量大小、训练状态(随机初始化/预训练)下均稳定存在,且比海森矩阵的幂律结构更具普遍性。协方差与海森矩阵关系的挑战:推翻“最小值附近SGN协方差与海森矩阵近似成正比”的传统认知,发现协方差的顶级特征值与海森矩阵对应特征值可能偏差一个数量级以上,且协方差谱的幂律结构不依赖于海森矩阵。幂律结构的影响因素与理论意义:影响因素:网络宽度(需≥70)是幂律协方差的必要条件,深度无显著影