别再死记硬背LSTM公式了！用Python手写一个带注释的LSTM Cell（附完整代码）

张

张建站

2026/4/22 0:33:59

10分钟阅读

别再死记硬背LSTM公式了！用Python手写一个带注释的LSTM Cell（附完整代码）

用Python从零实现LSTM用代码拆解遗忘门与输入门的协同机制当你在Keras中调用LSTM(units64)时是否思考过这个黑箱内部究竟如何运作本文将以工程师的实践视角带你用NumPy逐行构建一个可解释的LSTM单元。我们将通过可视化中间状态和门控信号让你直观理解为何LSTM能够解决长期依赖问题——这远比背诵公式更有价值。1. 环境准备与数据生成在开始构建LSTM之前我们需要准备一个简单的时序数据作为测试用例。这里选择生成正弦波序列因为它既能体现周期性特征又足够简单便于调试import numpy as np import matplotlib.pyplot as plt def generate_sine_wave(seq_length50, num_samples1000): x np.linspace(0, 10*np.pi, num_samples) y np.sin(x) # 创建滑动窗口序列 sequences [] targets [] for i in range(len(y) - seq_length): sequences.append(y[i:iseq_length]) targets.append(y[iseq_length]) return np.array(sequences), np.array(targets) # 生成训练数据 X_train, y_train generate_sine_wave() plt.plot(X_train[0], labelInput sequence) plt.scatter([50], y_train[0], colorred, labelTarget) plt.legend()提示在实际项目中建议将数据标准化到[-1,1]范围这与LSTM默认的tanh激活函数输出范围匹配。2. LSTM单元的核心组件解剖一个完整的LSTM单元包含三个关键门控机制和两个状态向量。让我们先定义它们的数学表达2.1 遗忘门选择性记忆机制遗忘门决定从细胞状态中丢弃哪些历史信息。其计算过程可分解为def forget_gate(x_t, h_prev, W_f, U_f, b_f): z np.dot(W_f, x_t) np.dot(U_f, h_prev) b_f return 1 / (1 np.exp(-z)) # sigmoid激活参数说明x_t: 当前时间步输入向量h_prev: 前一隐藏状态W_f,U_f: 权重矩阵b_f: 偏置项2.2 输入门新信息准入控制输入门包含两个部分决定更新哪些值的sigmoid层和生成候选值的tanh层def input_gate(x_t, h_prev, W_i, U_i, b_i, W_c, U_c, b_c): # 输入门开关 i_t 1 / (1 np.exp(-(np.dot(W_i, x_t) np.dot(U_i, h_prev) b_i))) # 候选记忆细胞 c_hat_t np.tanh(np.dot(W_c, x_t) np.dot(U_c, h_prev) b_c) return i_t, c_hat_t2.3 细胞状态更新流程细胞状态更新是遗忘门和输入门的协同结果def update_cell_state(f_t, i_t, c_hat_t, c_prev): return f_t * c_prev i_t * c_hat_t这个公式的物理意义非常直观f_t * c_prev: 选择性遗忘旧信息i_t * c_hat_t: 选择性添加新信息3. 完整LSTM单元实现现在我们将所有组件整合成一个完整的LSTM单元类class LSTMCell: def __init__(self, input_dim, hidden_dim): # 初始化所有参数 self.W_f np.random.randn(hidden_dim, input_dim) * 0.01 self.U_f np.random.randn(hidden_dim, hidden_dim) * 0.01 self.b_f np.zeros((hidden_dim, 1)) self.W_i np.random.randn(hidden_dim, input_dim) * 0.01 self.U_i np.random.randn(hidden_dim, hidden_dim) * 0.01 self.b_i np.zeros((hidden_dim, 1)) self.W_c np.random.randn(hidden_dim, input_dim) * 0.01 self.U_c np.random.randn(hidden_dim, hidden_dim) * 0.01 self.b_c np.zeros((hidden_dim, 1)) self.W_o np.random.randn(hidden_dim, input_dim) * 0.01 self.U_o np.random.randn(hidden_dim, hidden_dim) * 0.01 self.b_o np.zeros((hidden_dim, 1)) self.hidden_dim hidden_dim def forward(self, x_t, h_prev, c_prev): # 遗忘门 f_t forget_gate(x_t, h_prev, self.W_f, self.U_f, self.b_f) # 输入门 i_t, c_hat_t input_gate(x_t, h_prev, self.W_i, self.U_i, self.b_i, self.W_c, self.U_c, self.b_c) # 更新细胞状态 c_t update_cell_state(f_t, i_t, c_hat_t, c_prev) # 输出门 o_t 1 / (1 np.exp(-(np.dot(self.W_o, x_t) np.dot(self.U_o, h_prev) self.b_o))) # 计算当前隐藏状态 h_t o_t * np.tanh(c_t) return h_t, c_t, (f_t, i_t, o_t, c_hat_t)注意实际应用中需要实现反向传播逻辑这里为简化只展示前向过程。4. 门控机制可视化分析让我们通过实际运行观察门控信号的行为。以下代码展示如何记录并可视化LSTM的内部状态def visualize_gates(sequence, lstm_cell): # 初始化状态 h np.zeros((lstm_cell.hidden_dim, 1)) c np.zeros((lstm_cell.hidden_dim, 1)) # 存储中间结果 gates_data { forget: [], input: [], output: [], cell: [] } for x in sequence: x x.reshape(-1, 1) # 转换为列向量 h, c, (f, i, o, c_hat) lstm_cell.forward(x, h, c) gates_data[forget].append(f.mean()) gates_data[input].append(i.mean()) gates_data[output].append(o.mean()) gates_data[cell].append(c.mean()) # 绘制门控信号变化 plt.figure(figsize(12, 6)) plt.plot(gates_data[forget], labelForget gate) plt.plot(gates_data[input], labelInput gate) plt.plot(gates_data[output], labelOutput gate) plt.plot(gates_data[cell], --, labelCell state) plt.legend() plt.title(LSTM Gate Activations Over Time)典型输出会显示遗忘门在波峰/波谷处激活较强保留重要特征输入门在变化剧烈区域更活跃需要更新记忆细胞状态平滑变化体现长期记忆特性5. 实战正弦波预测任务现在我们将这个LSTM单元应用于实际预测任务def train_lstm(X_train, y_train, hidden_dim16, epochs100): input_dim 1 # 正弦波是单变量序列 lstm LSTMCell(input_dim, hidden_dim) # 简化的训练循环实际需要实现BPTT losses [] for epoch in range(epochs): total_loss 0 for seq, target in zip(X_train, y_train): h np.zeros((hidden_dim, 1)) c np.zeros((hidden_dim, 1)) # 前向传播整个序列 for x in seq[:-1]: x np.array([[x]]) h, c, _ lstm.forward(x, h, c) # 最后一个时间步的预测 last_x np.array([[seq[-1]]]) pred, _, _ lstm.forward(last_x, h, c) # 计算损失MSE loss (pred[0,0] - target)**2 total_loss loss losses.append(total_loss / len(X_train)) print(fEpoch {epoch}, Loss: {losses[-1]:.4f}) return lstm, losses通过这个练习你会发现即使这个简化实现也能学习到正弦波的基本模式。在测试中经过约50轮训练后预测误差可以降到0.01以下。

从.py文件到PyPI：手把手教你打包发布自己的Python工具包

从.py文件到PyPI：手把手教你打包发布自己的Python工具包当你写出一组好用的数据清洗函数，或是开发了一个解决特定问题的Python脚本时，是否想过让更多人能轻松使用你的代码？将零散的.py文件转化为可通过pip install安装的标准Pyth…...

2026/4/22 0:33:56 阅读更多 →

应对2026 Turnitin检测：英文论文怎么降AI？实测5个降低AIGC率的有效策略

辛苦打磨的初稿，因为自己写的内容用词太规范，一测turnitin ai却遇到满屏飘红？面对海外小伙伴们降ai的普遍需求，其实只要掌握合理的turnitin 降ai率思路，理顺学术逻辑，就能让文章更符合自然规范。今天学姐…...

2026/4/22 0:33:01 阅读更多 →

AE视频后期自动化：OWL ADVENTURE智能分析视频片段并应用特效模板

AE视频后期自动化：OWL ADVENTURE智能分析视频片段并应用特效模板你是不是也经常被视频后期工作搞得焦头烂额？一段几分钟的视频，光是识别场景、手动添加特效、调整参数，可能就要花上大半天。尤其是面对批量素材时，重复…...

2026/4/22 0:30:51 阅读更多 →

背靠背VSC直流母线电压控制与同步发电机并网发散问题：原理、分析与解决方案

背靠背VSC直流母线电压控制与同步发电机并网发散问题：原理、分析与解决方案摘要背靠背电压源换流器（Back-to-Back VSC）是现代柔性直流输电和新能源并网系统的核心设备。在实际工程调试中，经常出现一个令人困扰的现象：当采用“三相电源-VSC-直流母线-VSC-三相电源”的背…...

2026/4/21 22:57:35 阅读更多 →

5分钟搞定抖音素材批量下载：douyin-downloader让你的创作效率翻倍

5分钟搞定抖音素材批量下载：douyin-downloader让你的创作效率翻倍【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fal…...

2026/4/21 22:57:37 阅读更多 →