别再死记公式了！用Python手写一个反向传播，5分钟搞懂链式法则

张

张建站

2026/4/24 18:58:42

10分钟阅读

用Python代码拆解反向传播5分钟可视化链式法则当我在第一次接触神经网络时那些复杂的数学公式让我望而却步。直到有一天我决定用Python代码亲手实现一个简单的反向传播过程才真正理解了链式法则的精妙之处。本文将带你用不到50行代码直观感受误差是如何从输出层逆向流动到每一层权重的。1. 准备工作搭建最小神经网络我们需要构建一个足够简单但又完整的神经网络来演示反向传播。这个网络将包含输入层2个神经元隐藏层3个神经元使用Sigmoid激活函数输出层1个神经元使用Sigmoid激活函数import numpy as np # 随机初始化权重 def initialize_parameters(): np.random.seed(42) W1 np.random.randn(3, 2) * 0.01 b1 np.zeros((3, 1)) W2 np.random.randn(1, 3) * 0.01 b2 np.zeros((1, 1)) return {W1: W1, b1: b1, W2: W2, b2: b2}提示这里使用小随机数初始化权重是为了防止Sigmoid函数在初始阶段就进入饱和区。2. 前向传播计算预测值前向传播就像做一道数学题我们按顺序计算每一层的结果def sigmoid(x): return 1 / (1 np.exp(-x)) def forward_propagation(X, parameters): W1 parameters[W1] b1 parameters[b1] W2 parameters[W2] b2 parameters[b2] # 第一层计算 Z1 np.dot(W1, X) b1 A1 sigmoid(Z1) # 第二层计算 Z2 np.dot(W2, A1) b2 A2 sigmoid(Z2) cache {Z1: Z1, A1: A1, Z2: Z2, A2: A2} return A2, cache让我们用一个简单的输入测试一下X np.array([[0.5], [-0.3]]) # 2维输入 parameters initialize_parameters() A2, cache forward_propagation(X, parameters) print(f预测输出: {A2[0][0]:.4f})3. 反向传播链式法则在行动这才是最精彩的部分我们将一步步拆解误差是如何反向传播的def backward_propagation(parameters, cache, X, Y): m X.shape[1] W2 parameters[W2] A1 cache[A1] A2 cache[A2] # 输出层梯度 dZ2 A2 - Y dW2 (1/m) * np.dot(dZ2, A1.T) db2 (1/m) * np.sum(dZ2, axis1, keepdimsTrue) # 隐藏层梯度 dA1 np.dot(W2.T, dZ2) dZ1 dA1 * A1 * (1 - A1) # Sigmoid导数部分 dW1 (1/m) * np.dot(dZ1, X.T) db1 (1/m) * np.sum(dZ1, axis1, keepdimsTrue) grads {dW1: dW1, db1: db1, dW2: dW2, db2: db2} return grads关键点解析dZ2 A2 - Y这是输出层的误差项dW2 (1/m) * np.dot(dZ2, A1.T)应用链式法则计算W2的梯度dZ1 dA1 * A1 * (1 - A1)这是Sigmoid函数的导数部分4. 参数更新梯度下降实战有了梯度我们就可以更新参数了def update_parameters(parameters, grads, learning_rate0.01): W1 parameters[W1] b1 parameters[b1] W2 parameters[W2] b2 parameters[b2] dW1 grads[dW1] db1 grads[db1] dW2 grads[dW2] db2 grads[db2] W1 W1 - learning_rate * dW1 b1 b1 - learning_rate * db1 W2 W2 - learning_rate * dW2 b2 b2 - learning_rate * db2 return {W1: W1, b1: b1, W2: W2, b2: b2}5. 完整训练循环见证学习过程现在我们把所有部分组合起来观察网络如何学习def train(X, Y, iterations1000, learning_rate0.01): parameters initialize_parameters() for i in range(iterations): # 前向传播 A2, cache forward_propagation(X, parameters) # 计算损失 cost -np.mean(Y * np.log(A2) (1-Y) * np.log(1-A2)) # 反向传播 grads backward_propagation(parameters, cache, X, Y) # 参数更新 parameters update_parameters(parameters, grads, learning_rate) if i % 100 0: print(f迭代 {i}: 损失 {cost:.4f}) return parameters # 训练数据 X np.array([[0.5, -0.3, 0.1], [-0.3, 0.2, -0.1]]) # 3个样本 Y np.array([[1, 0, 1]]) # 3个标签 # 开始训练 final_parameters train(X, Y)运行这段代码你会看到损失值逐渐下降这就是反向传播和链式法则在发挥作用6. 梯度可视化理解链式法则的本质为了更直观地理解让我们打印出关键梯度值# 获取一次前向传播和反向传播的结果 A2, cache forward_propagation(X[:, 0:1], parameters) grads backward_propagation(parameters, cache, X[:, 0:1], Y[:, 0:1]) print(输出层梯度:) print(fdZ2:\n{grads[dZ2]}) print(fdW2:\n{grads[dW2]}) print(\n隐藏层梯度:) print(fdZ1:\n{grads[dZ1]}) print(fdW1:\n{grads[dW1]})观察这些数值你会发现梯度从输出层向输入层反向传播每一层的梯度都是前一层的梯度和当前层激活函数导数的乘积这正是链式法则的直观体现7. 常见问题与调试技巧在实际实现中你可能会遇到以下问题梯度消失当使用Sigmoid激活函数时深层网络的梯度可能会变得非常小解决方案使用ReLU等激活函数或进行梯度裁剪数值不稳定计算过程中可能出现NaN值检查初始化权重是否合适学习率是否过大学习速度慢损失下降不明显尝试调整学习率增加网络容量调试反向传播的一个有效技巧是使用梯度检验Gradient Checking虽然计算成本较高但能确保你的反向传播实现正确def gradient_check(parameters, grads, X, Y, epsilon1e-7): parameters_values parameters.copy() grad_approx {} for key in parameters: # 计算数值梯度 theta_plus parameters_values.copy() theta_plus[key] epsilon J_plus, _ forward_propagation(X, theta_plus) theta_minus parameters_values.copy() theta_minus[key] - epsilon J_minus, _ forward_propagation(X, theta_minus) grad_approx[key] (J_plus - J_minus) / (2 * epsilon) # 比较数值梯度和解析梯度 for key in grad_approx: difference np.linalg.norm(grads[dkey] - grad_approx[key]) print(f{key}梯度差异: {difference:.2e} (应该1e-7))通过这个完整的实现过程相信你已经对反向传播和链式法则有了直观的理解。记住在深度学习中代码实践往往比死记公式更能带来深刻的理解。

森利威尔SL7100B PWM及线性调光低压差降压恒流IC 外围简单无需电感成本优势明显

SL7100B是一款集成了调光功能的线性降压LED恒流驱动器，专为简化LED照明应用设计而打造。该芯片以其低静态电流、宽输入电压范围以及高度集成的保护机制，在LED驱动领域脱颖而出。其独特之处在于，仅需外接一个电阻即可构成完整的LED恒流驱动电路…...

2026/4/24 18:58:40 阅读更多 →

3D检测演进：从点云处理、体素编码到中心点表征的技术脉络

1. 3D目标检测的起点：PointNet如何颠覆传统 2017年CVPR上横空出世的PointNet，就像给点云处理领域扔下了一颗炸弹。当时我在做自动驾驶感知项目，第一次看到这个模型时简直惊为天人——它居然能直接吃进原始点云数据，完全跳过了传统…...

2026/4/24 18:58:40 阅读更多 →

Vue3项目选型指南：v-md-editor、Element Plus富文本、还有谁？深度对比与避坑心得

Vue3富文本编辑器选型实战：从技术决策到避坑指南当团队启动一个需要富文本编辑功能的新项目时，技术选型会议上的讨论往往异常激烈。作为经历过多次这类争论的前端负责人，我深刻理解选择不当可能带来的维护成本。本文将基于五个真实项目经验&…...

2026/4/24 18:58:10 阅读更多 →

背靠背VSC直流母线电压控制与同步发电机并网发散问题：原理、分析与解决方案

背靠背VSC直流母线电压控制与同步发电机并网发散问题：原理、分析与解决方案摘要背靠背电压源换流器（Back-to-Back VSC）是现代柔性直流输电和新能源并网系统的核心设备。在实际工程调试中，经常出现一个令人困扰的现象：当采用“三相电源-VSC-直流母线-VSC-三相电源”的背…...

2026/4/24 1:12:17 阅读更多 →

5分钟搞定抖音素材批量下载：douyin-downloader让你的创作效率翻倍

5分钟搞定抖音素材批量下载：douyin-downloader让你的创作效率翻倍【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fal…...

2026/4/24 0:38:32 阅读更多 →