基于RRAM的4T1R混合突触:实现脉冲频率依赖可塑性(SRDP)的硬件方案
1. 项目概述与核心价值在神经形态计算这个前沿领域我们这些做硬件的人心里都揣着一个终极目标造出能像人脑一样“思考”和“学习”的芯片。人脑的魔力很大程度上源于其海量神经元之间通过突触建立的、可动态调整的连接。这种调整能力我们称之为“突触可塑性”它是所有学习和记忆的物理基础。传统的数字计算机架构在处理这类任务时功耗和效率都面临瓶颈因此用模拟生物神经网络的硬件来实现认知功能成了近年来学术界和工业界共同追逐的圣杯。在众多生物启发学习规则中脉冲时序依赖可塑性STDP大家听得比较多它关注的是前后两个脉冲的精确时间差。但大脑的学习机制远不止这一种。另一种同样重要、甚至在某些场景下更基础的学习规则是脉冲频率依赖可塑性SRDP。它的核心思想更直观突触权重的变化主要由突触前和突触后神经元发放脉冲的频率来决定。高频的脉冲活动通常导致突触增强长时程增强LTP而低频活动则可能导致突触减弱长时程抑制LTD。这种机制与Bienenstock-Cooper-Munro (BCM) 理论紧密相关被认为是实现稳定、无监督学习的关键。然而在硅上实现SRDP一直是个挑战。传统的纯CMOS方案往往需要复杂的电路包含多个晶体管和电容导致单个突触面积过大难以实现大脑级别的高密度集成。这时新兴的非易失性存储器技术特别是电阻式随机存取存储器RRAM以其独特的优势进入了我们的视野。RRAM器件可以通过外加电信号在高低阻态之间可逆切换这个阻值自然就可以映射为突触的权重。它的非易失性、低功耗、高密度和与CMOS工艺兼容的潜力使其成为构建“记忆电阻”突触的理想候选者。本文要深入剖析的正是意大利米兰理工大学和美光科技团队在2018年提出的一项创新工作一种基于RRAM的4晶体管1电阻4T1R混合突触它成功地在硬件层面实现了SRDP。这个设计的巧妙之处在于它没有依赖某种特殊的RRAM材料特性来实现频率依赖而是通过一个精心设计的CMOS外围电路将脉冲频率信息转化为对RRAM器件进行“置位”Set转向低阻态对应LTP或“复位”Reset转向高阻态对应LTD操作的触发条件。这种“混合”思路将RRAM的存储优势与CMOS电路的控制灵活性结合起来为实现高密度、可在线学习的神经形态芯片铺平了道路。对于从事集成电路设计、存储器开发、神经形态工程以及人工智能硬件加速的工程师和研究人员来说理解这个4T1R突触的工作原理、设计权衡和实现细节不仅有助于把握当前领域的技术前沿更能为设计自己的神经形态原型系统提供宝贵的电路级参考。它不仅仅是一个学术概念更是一个具有明确电路图、可测试、可仿真的硬件实体。1.1 核心需求与设计目标解析在设计一个能实现SRDP的硬件突触时我们需要解决几个核心问题这也是4T1R结构所要达成的目标频率检测与转换如何将抽象的“脉冲频率”这一信息转换为具体的、可控制RRAM状态变化的电学信号这是最核心的功能需求。系统需要能区分高频和低频的脉冲流并产生不同的控制动作。双向可塑性必须同时支持LTP增强和LTD减弱两种操作并且这两种操作应由频率信息自然地触发而不是由外部施加一个独立的“增加”或“减少”命令。噪声的利用与抑制生物神经网络中充满了随机噪声有趣的是噪声并非总是有害的。在SRDP规则中低频的主信号往往需要依赖随机噪声来触发LTD。因此电路需要能生成或利用可控的噪声源同时又要保证噪声不会过度干扰高频信号触发的LTP过程。面积与能效为了构建大规模神经网络单个突触的电路必须尽可能紧凑功耗要低。这是选择RRAM和精简CMOS电路的根本动机。在线学习能力突触权重要能根据实时输入的脉冲流进行动态、持续的更新实现“在线学习”而不是传统的“训练-冻结-推理”模式。4T1R混合突触结构正是围绕这些目标进行设计的。它用一个RRAM单元存储权重用四个MOS晶体管构成两条控制通路巧妙地利用脉冲时序的重叠概率来感知频率并利用噪声来实现双向调节。接下来我们就深入电路内部看看它是如何运作的。2. 4T1R混合突触的电路架构与工作原理理解这个突触关键在于吃透它的电路图。整个突触连接着一个突触前神经元PRE和一个突触后神经元POST。其核心是一个双分支结构共同控制着一个RRAM器件。2.1 电路结构详解突触的完整电路由以下部分构成一个双极型RRAM器件作为突触权重的非易失性存储单元。其阻值R的高低直接代表突触连接的强弱。通常低阻态LRS对应强连接高权重高阻态HRS对应弱连接低权重。四个NMOS晶体管M1, M2, M3, M4它们被组织成两个并联的分支LTP分支M1 M2负责实现长时程增强。这个分支本质上构成一个**与非门NAND**的逻辑功能。M1和M2的栅极分别接收来自PRE的脉冲信号但M2的输入信号被延迟了一个固定时间Δt_D。LTD分支M3 M4负责实现长时程抑制。M3的栅极接收来自PRE的随机噪声脉冲。M4的栅极接收来自POST的随机噪声脉冲经过反相后。突触后神经元POST通常是一个积分发放IF电路。它接收从RRAM流过来的电流电流大小取决于RRAM阻值和PRE脉冲进行积分。当膜电位超过阈值时POST会发放一个“激发”脉冲。此外POST还会产生一个独立的噪声脉冲流。连接关系RRAM的一端顶电极TE连接到POST的输入端同时POST产生的噪声脉冲也可以施加到TE上。RRAM的另一端连接到M1/M2和M3/M4两支路的公共源端。两支路的漏端连接在一起并接到一个固定的电压源或地取决于具体偏置方案。2.2 SRDP工作机制频率如何控制权重更新这个电路的精妙之处在于它利用脉冲在时间上的重叠概率来感知频率并通过控制不同的电流路径来改变RRAM状态。2.2.1 高频触发LTP增强的流程当PRE神经元因为感受到强烈刺激而高频放电时例如对应输入图像中的亮点PRE产生一串高频脉冲直接送到M1的栅极。同一串脉冲经过一个延迟线Δt_D后送到M2的栅极。由于频率高f_PRE 1/Δt_D任意一个时刻M1被当前脉冲打开的概率很高同时M2被前一个脉冲已延迟打开的概率也很高。因此M1和M2同时导通的概率大大增加。当M1和M2同时导通时LTP分支被激活形成一个从电源经M1/M2和RRAM到地的电流通路。此时如果POST神经元也刚好因为积分达到阈值而发放一个“激发”脉冲这个脉冲会施加到RRAM的TE上那么RRAM两端将同时满足Set操作所需的条件电压、电流方向从而发生置位Set电阻从HRS切换到LRS突触权重增强。关键点这里实际上需要一个“三重脉冲”事件一个PRE脉冲打开M1一个延迟的PRE脉冲打开M2以及一个POST激发脉冲。这三者在时间上的重叠才最终触发LTP。这正好对应了神经科学中的“三重脉冲”学习规则。电路通过Δt_D这个固定延迟将PRE的频率信息转换为了M1和M2栅压重叠的概率。2.2.2 低频导致LTD抑制的流程当PRE神经元活动低频或静息时例如对应输入图像中的暗点PRE的主信号频率很低f_PRE 1/Δt_DM1和M2同时导通的概率极低因此LTP分支基本不工作。此时电路中的随机噪声源开始发挥作用。PRE和POST都会持续产生低频的随机噪声脉冲。PRE的噪声脉冲施加到M3栅极POST的噪声脉冲反相后施加到M4栅极。由于噪声是随机的M3和M4有可能同时被打开。当M3和M4同时导通时LTD分支被激活。同时POST的噪声脉冲负向会直接施加到RRAM的TE上。这会在RRAM上产生一个与Set方向相反的电压偏置如果条件合适就会引发复位Reset电阻从LRS切换到HRS突触权重减弱。设计精髓噪声在这里不是需要消除的干扰而是实现LTD所必需的随机触发器。通过调节噪声脉冲的平均频率f3和f4可以控制LTD发生的速率。低频的主信号无法战胜噪声的随机扰动从而使得背景非特征突触逐渐被抑制。2.2.3 竞争与平衡整个突触的学习动态就是LTP分支和LTD分支之间的一场竞争。高频的、有意义的信号通过LTP分支主导强化相关的突触连接而低频的、无意义的背景活动则被LTD分支借助噪声主导弱化不相关的连接。通过合理设置Δt_D、f_PRE以及噪声频率f3、f4可以调节突触对频率的敏感性和学习速率。3. 核心器件选型与电路实现细节要让这个理论电路真正工作起来每一个器件的选择和参数都至关重要。这里结合论文中的实验设置拆解其中的实操要点。3.1 RRAM器件的选择与特性论文中选用的是基于HfO₂的金属氧化物双极型RRAM。这种选择背后有深刻的考量材料成熟度HfO₂ 是标准CMOS工艺中常用的高k栅介质材料与现有产线兼容性好易于集成。双极开关特性Set到LRS需要正电压Reset到HRS需要负电压这与4T1R电路的设计完美匹配——LTP分支和POST激发脉冲提供正向偏置LTD分支和POST噪声脉冲提供负向偏置。性能均衡这类RRAM通常具有较快的开关速度纳秒级、良好的耐久性10^6次循环和保持特性能满足神经形态计算中频繁更新和长期存储的需求。二进制 vs. 模拟实验中使用的HfO₂ RRAM表现出较陡峭的开关特性因此突触权重表现为二进制LRS/HRS。这对于验证原理是足够的。但作者也指出如果采用具有渐变开关特性的材料如PrCaMnO₃或TaOₓ/TiOₓ双层结构则可以实现模拟式的、多级的SRDP对于灰度图像学习等任务会更有利。器件参数示例电极顶电极TE为Ti作为氧空位注入层底电极BE为TiN惰性电极。初始状态在训练前通常通过一个Reset脉冲如-1.6V到TE同时M1/M2栅压3.2V将器件置于高阻态HRS约150 kΩ。低阻态Set后的典型阻值约为20 kΩ。3.2 CMOS晶体管的设计考量四个MOS晶体管M1-M4的尺寸和参数决定了电流驱动能力、开关速度以及整个电路的功耗。尺寸论文中使用的晶体管尺寸为W/L 3 μm / 1.45 μm。这是一个相对保守的尺寸确保了良好的可控性和匹配性适用于实验验证。在实际高密度集成中尺寸会尽可能缩小。阈值电压与过驱动电压栅极脉冲的幅度如M1用3.2VM2用1.6V需要精心设计。M2的电压较低是为了在LTP事件中限制通过RRAM的最大电流设置一个 compliance current如50 μA。这是保护RRAM器件、实现可控Set的关键避免大电流导致器件损坏或阻值不可控。延迟单元Δt_D这是电路中的一个关键参数。它通常由一个简单的缓冲器链或专门的延迟电路实现。Δt_D的值直接决定了区分“高频”和“低频”的阈值频率f_threshold 1/Δt_D。论文中实验采用的Δt_D 10 ms对应的阈值频率为100 Hz。这个频率范围是为了类比生物神经元的放电频率。在实际应用中可以通过调整Δt_D来改变工作频率例如为了加速训练可以将其设置为微秒甚至纳秒级。3.3 噪声生成机制可靠的、可调控的随机噪声脉冲源是LTD分支工作的前提。论文提到了几种可行的硬件实现方式放大本征噪声利用MOS晶体管本身的热噪声或1/f噪声经过放大和整形来产生随机脉冲序列。这种方法电路简单但噪声强度可能较弱。利用随机电报噪声RTN某些器件如小尺寸MOSFET或RRAM本身在特定偏置下会产生随机的RTN信号可以作为随机源。利用RRAM的随机性这是非常巧妙的一招。RRAM在Set/Reset过程中本身具有随机性可以利用一个额外的RRAM器件在其阈值附近施加电压其随机的开关事件即可作为高质量的物理真随机数发生器TRNG来驱动噪声脉冲生成。这种方法产生的噪声随机性好且与突触阵列工艺兼容。在系统层面需要为整个突触阵列提供全局或局部的噪声脉冲分布网络。4. 实验验证与性能表征理论再完美也需要实验数据来支撑。论文作者通过分离测试LTP和LTD分支使用2T1R结构模拟并最终进行网络级演示系统地验证了4T1R突触的SRDP特性。4.1 LTP分支的频率依赖性验证为了单独测试LTP功能他们搭建了一个2T1R测试结构模拟M1-M2-RRAM通路设置条件在RRAM的TE施加一个恒定的正电压如2V。将M1的栅极施加一串平均频率为f_PRE的随机脉冲幅度3.2V脉宽1ms。同一串脉冲延迟Δt_D 10 ms后施加到M2栅极幅度降为1.6V以限流。训练过程将RRAM初始化为HRS然后施加一段时间的训练脉冲序列例如0.75秒。统计结果重复实验多次统计训练后RRAM处于LRS即发生LTP的概率。关键发现如图3所示当f_PRE低于100 Hz时LTP概率几乎为0当f_PRE达到或超过100 Hz即1/Δt_D时LTP概率急剧上升。这清晰地证明了LTP的发生强烈依赖于PRE脉冲频率是否超过阈值。同时LTP概率大致与f_PRE的平方成正比这符合两个独立泊松脉冲流在延迟窗口内重叠的概率统计规律。4.2 LTD分支的噪声依赖性验证类似地测试LTD分支模拟M3-M4-RRAM通路设置条件RRAM初始化为LRS。M3栅极施加频率为f3的噪声脉冲M4栅极施加固定频率如f4 10 Hz的噪声脉冲同时将M4的脉冲反相后加到RRAM的TE。训练与结果经过一段时间训练后观察RRAM被Reset回HRS即发生LTD的情况。如图4所示只有当f3大于f4时才会发生明显的LTD。这表明LTD需要PRE和POST的噪声脉冲有一定概率同时发生。4.3 网络级模式学习演示这是最能体现其应用价值的实验。他们构建了一个简单的两层感知机网络8x8输入1个输出用64个这的SRDP突触连接。输入编码将一个简单的视觉模式比如一个“X”形编码到输入层。模式对应的输入神经元发放高频脉冲150 Hz背景神经元发放低频脉冲5 Hz。训练过程第一阶段LTD先对所有突触施加一段时间的随机噪声图像输入利用噪声诱导的LTD将所有突触的权重“抹平”到一个较低的基线水平HRS。第二阶段LTP然后输入目标模式。此时模式对应的高频脉冲会触发这些突触的LTP使其权重增强变为LRS而背景对应的低频脉冲无法触发LTP其权重保持低位。结果如图6和图7所示经过训练后网络成功学会了这个模式。输出神经元对“X”模式输入会产生强烈响应而对随机噪声输入则响应微弱。这直接证明了基于SRDP的无监督学习在硬件上是可行的。4.4 仿真扩展在线序列学习实验验证了单模式学习而通过仿真作者进一步展示了更强大的在线连续学习能力。场景让网络先学习一个“X”模式然后在训练中途将输入切换为另一个“C”模式。关键条件需要配置合适的噪声频率f3,f4。结果如图14所示网络能够“忘记”旧的“X”模式因为其对应的输入变为低频被噪声驱动的LTD抑制并学习新的“C”模式。这模拟了生物系统持续适应新环境的能力。陷阱如果噪声频率设置得过低LTD效应太弱网络就无法忘记旧模式导致两个模式的权重都得到增强从而失去选择性如图15所示。这凸显了噪声频率调谐在SRDP学习中的重要性。5. 设计权衡、挑战与未来展望4T1R突触是一个优雅的折中方案但它也面临着一些固有的挑战和权衡点。5.1 优势与价值生物逼真性直接实现了SRDP这一重要的生物学习规则。结构相对简洁相比一些纯CMOS的SRDP实现方案4T1R利用RRAM存储权重省去了复杂的模拟存储电路如浮栅或电容。非易失性存储RRAM的权重在断电后得以保持符合长期记忆的特性。在线学习能力权重可根据输入流实时更新支持持续学习。与CMOS工艺兼容RRAM可以在后端制程中与标准CMOS集成为大规模神经形态芯片的实现提供了可能。5.2 挑战与局限性面积开销虽然比一些纯CMOS方案小但4个晶体管1个RRAM的面积仍然比最简单的1T1R用于存储或2T1R用于STDP突触要大。对于追求极致密度的类脑芯片这仍是一个需要优化的问题。二进制权重限制如实验所用基于HfO₂的RRAM往往表现出二值开关特性限制了网络表达的精度。虽然可采用模拟型RRAM但其器件一致性和可控性又是新的挑战。噪声管理的复杂性噪声既是实现LTD的必要条件也是干扰LTP的潜在因素。需要在系统层面精细设计噪声的产生、分配和强度控制以在“学习效率”和“抗干扰性”之间取得最佳平衡如图13所示的权衡曲线。参数敏感性电路性能严重依赖于Δt_D、脉冲幅度、噪声频率等参数的匹配。工艺偏差可能导致不同突触的行为不一致需要引入校准或容错机制。功耗分析虽然RRAM本身开关能耗很低但驱动晶体管的动态功耗、以及频繁的脉冲活动产生的功耗在大规模网络中仍需仔细评估。5.3 实际部署的考量与建议如果你计划在芯片设计中借鉴或实现此类混合突触以下几点经验值得参考先仿真后流片务必使用包含RRAM紧凑模型和晶体管SPICE模型的混合仿真平台对整个突触电路进行深入的DC、瞬态和蒙特卡洛仿真。重点观察在不同工艺角PVT下LTP/LTD的触发阈值和成功率。设计可调参数在芯片上预留一些可调参数比如通过数字寄存器控制延迟单元Δt_D的粗细、噪声发生器的频率和强度等。这为芯片测试和算法调试提供了巨大的灵活性。关注器件变异RRAM的开关电压、阻值都存在固有的器件间差异。在电路设计时要确保操作窗口如Set/Reset电压足够大以容纳这些变异。可以考虑引入反馈电路或写验证Write-Verify机制来确保权重更新的准确性。系统级协同设计突触不是孤立工作的。需要设计与之间匹配的神经元电路如IF神经元、脉冲路由网络和全局控制逻辑。特别是噪声的全局分布策略需要仔细规划以避免串扰和保证学习稳定性。5.4 未来发展方向这项研究为RRAM在神经形态计算中的应用开辟了一条重要路径。后续的发展可能集中在结构简化探索更紧凑的电路拓扑例如尝试将4个晶体管的功能部分合并或者探索3T1R甚至2T1R实现SRDP的可能性。多值/模拟化集成具有渐变导电特性的RRAM材料实现真正的模拟权重和更精细的学习。三维集成利用RRAM可以垂直堆叠的特性与CMOS逻辑层进行3D集成极大提高突触密度。与先进学习规则结合将SRDP与STDP等其他规则结合或者引入全局调制信号如多巴胺模拟实现更复杂、更强大的学习算法。回过头看这项工作的核心贡献在于它用一个清晰、可实现的混合电路方案在硬件上“复活”了SRDP这一生物学习规则。它不仅仅是一个孤立的器件演示而是通过从器件表征到网络仿真的完整链条证明了将其用于构建自适应、在线学习型智能硬件的可行性。对于硬件工程师而言它提供了一份宝贵的“电路食谱”对于算法研究者而言它则揭示了一种新的、受硬件约束启发的学习范式。在通往通用人工智能硬件的漫长道路上这类将生物灵感、器件物理和电路设计深度融合的工作无疑是坚实而关键的一步。