基于隐马尔可夫结构的伊辛模型:凯莱树上的精确推断与机器学习应用
1. 项目概述与核心动机在机器学习和统计物理的交叉地带我们常常需要处理一类“看得见”但“看不清”的数据。比如你有一张布满噪点的老照片观测数据想恢复其原本清晰的模样隐藏的真实状态或者你只有少量带标签的样本弱监督却要推断出整个数据集的完整结构。这类问题的核心是如何从嘈杂、不完整的观测中稳健地推断出背后干净的、结构化的隐藏信息。传统的隐马尔可夫模型HMM是处理这类序列推断问题的利器它假设当前观测只依赖于当前的隐藏状态。但现实世界的数据如图像像素、社交网络节点、基因序列的相邻位点其隐藏状态之间往往也存在强烈的空间或拓扑关联。一个像素是否属于某个物体不仅影响它自己的观测值也与其邻域像素的隐藏状态息息相关。这时标准的HMM就有些力不从心了因为它忽略了隐藏状态之间的相互作用导致模型表达能力受限在复杂空间结构上的精确推断也变得异常困难。这正是我们引入基于隐马尔可夫结构的伊辛模型的出发点。简单来说我们构建了一个“双层”的随机场底层是一组相互作用的“隐藏自旋”可以理解为我们要推断的干净标签或潜在变量它们遵循伊辛模型的相互作用规则倾向于与邻居保持一致或相反取决于耦合强度上层则是我们观测到的“可见自旋”即带噪声的数据每个可见自旋只与其对应的隐藏自旋直接耦合模拟了观测噪声或生成过程。这个模型的核心创新在于它巧妙地将HMM的“发射”过程从隐藏状态生成观测与伊辛模型的“相互作用”过程隐藏状态之间的空间关联融合在了同一个能量框架下。更关键的是我们选择在凯莱树这一特殊的图结构上研究它。凯莱树是一种无限的无环图每个节点有固定数量的邻居。正是这种无环的树状结构使得复杂的概率推断问题——计算在给定观测下所有可能隐藏状态的概率分布——从一般图上的NP难问题变成了可以通过高效的“信念传播”算法精确求解的问题。本文的目的就是为你深入拆解这个模型从统计物理的哈密顿量定义到在凯莱树上求解其平衡态吉布斯测度的数学过程再到如何将这些理论结果转化为去噪、弱监督学习和异常检测中的实用推断算法。我会结合自己处理类似问题的经验分享其中的关键洞见、计算技巧以及需要避开的“坑”。2. 模型构建哈密顿量、凯莱树与吉布斯测度2.1 从物理图像到数学公式哈密顿量的设计一切始于一个能量函数在统计物理中称为哈密顿量H(s, σ)。它同时依赖于隐藏自旋配置s和观测自旋配置σ其值越低对应的(s, σ)状态出现的概率就越高。我们的模型哈密顿量设计如下H(s, σ) -J Σ_{⟨x,y⟩} [s(x)s(y) - σ(x)σ(y)] - Σ_{x} log P(σ(x) | s(x))让我们逐项拆解其设计逻辑与物理意义隐藏层相互作用项-J Σ s(x)s(y)这是经典的伊辛模型项。J是耦合强度。当J 0时该项鼓励相邻的隐藏自旋s(x)和s(y)同号s(x)s(y) 1这对应于铁磁相互作用模型倾向于产生大片的、均匀的隐藏区域。当J 0时则鼓励反铁磁排列相邻自旋反号。这项编码了我们关于隐藏状态先验结构的信念例如图像中相邻像素的标签倾向于相同。观测层相互作用项J Σ σ(x)σ(y)这是一个关键创新。它直接对观测数据σ本身的自旋-自旋关联进行建模。为什么需要它在经典的HMM中观测被假设为在给定隐藏状态下条件独立。但真实数据中观测值之间往往存在相关性例如噪声可能具有空间相关性或者相邻像素的灰度值本身就相关。这项允许模型捕捉并利用观测数据中的这种固有结构。它与第一项的差异[s(x)s(y) - σ(x)σ(y)]共同构成了一种“对齐惩罚”鼓励隐藏状态的关联模式与观测数据的关联模式相匹配。发射项-Σ log P(σ(x) | s(x))这是连接隐藏层与观测层的桥梁继承了HMM的核心思想。P(σ(x) | s(x))是发射概率表示在隐藏状态为s(x)时观测到σ(x)的可能性。通常如果σ(x)是连续值这可能是一个高斯分布对于二值观测则是伯努利分布。取负对数后该项衡量的是观测数据与当前隐藏状态假设之间的“失配”程度。在去噪问题中它可以建模噪声过程在分类问题中它可以建模从类别标签到观测特征的生成过程。设计心得将log P(σ|s)直接写入哈密顿量而非其概率形式是统计物理中的标准操作因为它使能量成为各点贡献的线性求和更便于后续的分解与计算。同时[s(x)s(y) - σ(x)σ(y)]这一组合形式非常巧妙它将学习或推断的目标清晰地表述为寻找一个隐藏配置s使其局部关联模式尽可能接近观测数据σ的关联模式。这可以看作一种基于能量的损失函数。2.2 计算乐园为什么选择凯莱树在一般图比如网格上计算上述模型的精确概率分布吉布斯测度是公认的难题通常需要依赖近似方法如蒙特卡洛采样或变分推断。但凯莱树提供了一个“精确可解”的天堂。凯莱树Γ_k是一个每个内部节点都有k1个邻居的无限树。其核心特性是无环。无环性意味着任意两个节点之间只有唯一一条路径。这个性质彻底改变了概率推断的复杂度消去环路与精确推断在有环图中消息概率信息会在环路中循环传播导致难以收敛到精确解。在树上信息可以从叶子节点单向传递到根节点或反之没有循环依赖这使得信念传播算法不仅是有效的而且是精确的。我们可以计算出任意节点隐藏自旋的精确边缘概率。递归结构的便利树的结构天然适合递归。在求解吉布斯测度时我们可以从叶子节点开始写出关于子节点变量与父节点变量的递归关系式这正是后续方程 (9)-(11) 的来源。这种递归性将无限维的概率分布问题约化为一组有限维的函数方程。相变分析的舞台凯莱树虽然结构特殊但它依然能展现丰富的相行为即系统参数变化时平衡态性质发生突变的现象。这使得我们可以在一个严格可控的数学环境中研究模型的表达能力、解的唯一性/多重性以及这些性质如何随温度T、耦合强度J等参数变化。实操注意虽然凯莱树是理论分析的理想对象但实际数据如图像像素的结构更接近网格。一种实用的思路是将树结构模型作为更复杂模型的近似或作为推导高效近似算法的基础。例如我们可以将一个网格图“生成树”化或者利用树结构模型来初始化网格模型上的迭代算法。2.3 平衡态的描述吉布斯测度与递归方程系统的概率分布由玻尔兹曼分布给出P(s, σ) ∝ exp(-β H(s, σ))其中β 1/T是逆温度。我们关注的是平移不变吉布斯测度即概率分布在图的平移变换下保持不变。这对应于物理上均匀、稳定的平衡态。通过在凯莱树上利用递归结构我们可以推导出定义布斯测度的关键方程。引入一组与边界条件相关的场变量h_{s(x), σ(x), x}最终问题归结为求解一组关于比值变量z_{ε,δ,x} exp(h_{ε,δ,x} - h_{-1,-1,x})的非线性递归方程论文中的方程 (9)-(11)z_{-1,1,x} Π_{y∈S(x)} [ (θ a*z_{-1,1,y} b*z_{1,-1,y} θ^{-1}*c*z_{1,1,y}) / (1 θ*a*z_{-1,1,y} θ^{-1}*b*z_{1,-1,y} c*z_{1,1,y}) ] z_{1,-1,x} Π_{y∈S(x)} [ (θ^{-1} a*z_{-1,1,y} b*z_{1,-1,y} θ*c*z_{1,1,y}) / (1 θ*a*z_{-1,1,y} θ^{-1}*b*z_{1,-1,y} c*z_{1,1,y}) ] z_{1,1,x} Π_{y∈S(x)} [ (1 θ^{-1}*a*z_{-1,1,y} θ*b*z_{1,-1,y} c*z_{1,1,y}) / (1 θ*a*z_{-1,1,y} θ^{-1}*b*z_{1,-1,y} c*z_{1,1,y}) ]其中θ exp(2βJ)编码了耦合强度J和温度T的影响。a, b, c是由发射概率P(σ|s)决定的参数例如a exp(β[log P(-1|1) - log P(-1|-1)])它们编码了观测噪声的特性。S(x)是节点x的所有子节点集合。求解这些方程就等价于找到了系统所有可能的平衡态吉布斯测度。平移不变性假设z_{ε,δ,x}与节点x无关简化为常数z_{ε,δ}从而将函数方程简化为关于uaz_{-1,1},vbz_{1,-1},wcz_{1,1}的代数方程组方程 (19)。3. 相图解析平衡态的唯一性与多重性模型的丰富行为体现在其平衡态吉布斯测度的个数上。唯一解对应系统处于无序相多个解则对应有序相系统可能处于不同的宏观状态如多数自旋向上或向下这被称为相变。我们对几种特殊但重要的参数情形进行解析。3.1 对称发射概率情形 (abc1)这是最干净的情形意味着发射概率完全对称P(1|1) P(-1|-1) P(1|-1) P(-1|1)。也就是说观测值σ不提供任何关于隐藏状态s的倾向性信息噪声是完全随机的。此时系统的行为完全由耦合强度J通过θ体现和树的度k决定。通过分析简化后的方程我们在三个不变的子流形I1, I2, I3上寻找解I1流形 (u1, vw)对应方程简化为v f(v, θ) [(1θv)/(θv)]^k。这是一个经典的单变量递归方程。I2流形 (uw, v1)方程简化为u f(u, 1/θ)。I3流形 (uv, w1)方程简化为u f(u, 2/(θθ^{-1}))。其中函数f(x, γ) [(1γx)/(γx)]^k的性质决定了解的个数。关键结论如下参数区域I1流形解数I2流形解数I3流形解数总吉布斯测度数物理意义0 θ (k-1)/(k1)131≥3低温或强耦合反铁磁区I2出现有序相(k-1)/(k1) ≤ θ ≤ (k1)/(k-1)1111高温或弱耦合区唯一无序相θ (k1)/(k-1)311≥3低温或强耦合铁磁区I1出现有序相核心发现即使在观测不提供信息 (abc1) 的极端情况下系统仅凭隐藏自旋间的相互作用 (J)在强耦合θ极大或极小时也会产生多个平衡态相变。例如当θ很大强铁磁耦合、低温I1流形上除了平凡解(1,1,1)还会出现两个非平凡解(1, v1, v1)和(1, v2, v2)其中v11,v21。它们分别对应倾向于s1和s-1的宏观有序态。计算技巧对于k2的具体情况非平凡解v1, v2有解析表达式见公式(25)。在更一般的k和θ下方程x f(x, γ)可以通过迭代法数值求解。从初始值x0≠1开始迭代x_{n1} f(x_n, γ)观察其收敛到哪个不动点。这对应于物理上的驰豫过程。3.2 一维链与对称发射 (k1, ab, c1)当树退化为简单的一维链 (k1) 时且发射概率满足P(1|1)P(-1|-1),P(1|-1)P(-1|1)系统总是有唯一的吉布斯测度。这符合一维伊辛模型在短程相互作用下没有相变的经典结论。此时方程可大幅简化最终解由u [(a-1)Θ sqrt(((a-1)Θ)^2 4a)] / 2给出其中Θ2/(θθ^{-1})。这个唯一解(u, u, 1)描述了系统在链上的均匀状态。3.3 一般情形 (k≥2, ab, c1) 的数值探索当发射概率不对称 (a≠1) 时系统行为更加复杂。论文通过数值求解展示了多样化的解。例如对于k2, a2, θ0.1存在一个解(u≈0.04, v≈1.6, w≈0.432)对应的吉布斯测度μ3表现出对观测数据的强烈依赖见第5.1节后续分析。避坑指南在数值求解方程组 (19) 或 (37) 时由于方程高度非线性对初值非常敏感。建议采用以下策略多初值尝试从多个随机初值开始进行牛顿迭代或拟牛顿法。连续延拓法如果知道某个参数点如a1的解可以逐渐改变参数如a从1变到2用上一步的解作为下一步的初值追踪解的路径。物理意义约束解u, v, w对应概率比值应为正实数。迭代过程中一旦出现负值或复数应立即调整或舍弃该路径。4. 推断算法从平衡态到实际应用理论上的吉布斯测度为我们提供了系统在平衡态下的完整概率描述。但机器学习的核心任务是推断给定观测数据σ我们如何计算隐藏状态s的后验概率P(s|σ)在凯莱树上这可以通过精确的信念传播实现。4.1 条件概率与信念传播公式在求得平移不变的z_{ε,δ}或对应的场h_{ε,δ}后对于树上的一条边ℓ0 ⟨x,y⟩给定其两端点的观测值σ(x), σ(y)隐藏自旋取值为(s(x), s(y))的条件概率为公式(39)的简化版μ(s(x), s(y) | σ(x), σ(y)) ∝ θ^{[1s(x)s(y)]/2} * exp(β p(σ(x)|s(x)) β p(σ(y)|s(y))) * z_{s(x),σ(x)} * z_{s(y),σ(y)}其中θ^{[1s(x)s(y)]/2}项当s(x)s(y)时为θ不等时为1体现了隐藏自旋间的相互作用。信念传播算法正是利用树的递归结构高效计算所有节点隐藏自旋的边缘概率μ(s(x)|σ)。算法步骤如下初始化对于每个叶子节点x向其父节点y发送消息m_{x→y}(s(y))。消息是一个关于s(y)取1或-1的未归一化概率向量。初始化可以设为均匀分布[1, 1]或利用局部观测σ(x)进行初始化。消息传递对于非根非叶节点x在收到所有子节点z ∈ S(x)发来的消息m_{z→x}(s(x))后向其父节点y发送消息m_{x→y}(s(y)) ∝ Σ_{s(x)} [ θ^{[1s(x)s(y)]/2} * exp(β p(σ(x)|s(x))) * z_{s(x),σ(x)} * Π_{z∈S(x)} m_{z→x}(s(x)) ]这个公式的直观解释是节点x汇总了来自其所有子树的信念Π m_{z→x}结合它自身的观测σ(x)和与父节点y的相互作用 (θ项)然后将关于父节点状态s(y)的信念向上传递。根节点置信度对于根节点x0在收到所有子节点的消息后计算自身的边缘概率bel(s(x0)) ∝ exp(β p(σ(x0)|s(x0))) * z_{s(x0),σ(x0)} * Π_{z∈S(x0)} m_{z→x0}(s(x0))反向传递求所有节点置信度从根节点开始利用来自父节点的消息和来自子节点的消息计算每个节点的最终边缘概率置信度。由于树无环从叶子根的一次前向传递再从根到叶子的一次反向传递即可得到所有节点精确的边缘概率。4.2 不同平衡态下的推断行为分析不同的吉布斯测度μ对应不同的z_{ε,δ}值从而导致完全不同的推断行为测度μ0(对相)对应abc1且θ在中间区域时的唯一解(1,1,1)。此时z_{ε,δ}1条件概率μ0(s(x),s(y)|σ)与观测σ无关公式(42)。推断结果完全由耦合强度θ决定θ/(1θ)的概率相邻隐藏自旋相同1/(1θ)的概率相反。这意味着观测数据没有提供任何信息推断出的隐藏状态是均匀、随机的。测度μ1与μ2(有序相)对应abc1但θ极大时I1流形上的两个非平凡解。以μ1对应v11为例其条件概率虽然形式上也不依赖σ公式(43)但计算出的μ1((1,1)|σ)概率显著高于其他配置。这意味着系统自发地进入了倾向于s1的宏观有序态。μ2则倾向于s-1。此时即使观测数据没有信息系统自身的强相互作用也驱动它做出了“决策”这类似于磁体的自发磁化。测度μ*(一维链)与μ3(一般非对称)在这些情况下z_{ε,δ}不对称且条件概率强烈依赖于观测σ。例如对于μ3当观测边为(1,1)时最可能的隐藏配置是(1,1)当观测为(-1,1)时最可能的隐藏配置是(-1,1)。此时模型能够有效地利用观测数据来指导推断隐藏状态的预测会与观测数据对齐。核心洞见吉布斯测度的多重性为机器学习模型提供了不同的“操作模式”或“先验偏好”。μ0代表一种“未决”或“高熵”模式μ1/μ2代表两种带有强烈偏见的“决策”模式而μ*、μ3则代表一种“数据驱动”的敏感模式。在实际应用中我们需要根据问题选择合适的模式这通常通过调整模型参数J, 发射概率来实现使其对应的吉布斯测度具备我们期望的性质。5. 机器学习应用场景与实现要点5.1 图像去噪问题给定噪声图像σ观测恢复干净图像s隐藏状态。模型适配观测层耦合项J Σ σ(x)σ(y)此项至关重要。自然图像中相邻像素的灰度值通常高度相关。该项使模型能学习到干净图像中应有的局部平滑性或纹理模式。噪声会破坏这种相关性而该项鼓励恢复的隐藏图像s具有与观测图像σ相似的局部统计特性。发射概率P(σ|s)建模噪声过程。例如假设加性高斯白噪声σ(x) | s(x) ~ N(s(x), η^2)则log P(σ|s) ∝ -[σ(x)-s(x)]^2/(2η^2)。对于二值图像可用伯努利噪声模型。隐藏层耦合项J Σ s(x)s(y)作为先验鼓励恢复的图像具有分段平滑的特性J0。实施步骤参数估计如果噪声水平η未知需从噪声图像中估计。对于简单的i.i.d.噪声可以从图像差分或平坦区域估计。图结构构建将图像像素排列在网格上但为了应用树上的精确推断需要将其转换为树结构。常用方法是构建一个生成树例如通过广度优先搜索将网格转化为树虽然会丢失一些边环路但作为近似通常效果不错。更精确但复杂的方法是使用** junction tree** 算法。运行推断在构建的树上运行信念传播算法计算每个像素s(x)1例如代表黑色或-1代表白色的后验概率。决策对每个像素取后验概率最大的隐藏状态作为去噪结果最大后验估计MAP。或者也可以采样多个可能配置。心得在去噪中耦合强度J是关键超参数。J太大去噪结果会过度平滑丢失细节J太小则去噪不彻底。通常需要通过交叉验证在验证集上调整。树结构虽然允许精确推断但因其忽略了网格中的许多环路可能会引入近似误差。实践中在树结构上运行信念传播然后将其结果作为初始值再在原始网格上运行迭代条件模式或图割等算法进行精修是一个有效的策略。5.2 弱监督学习问题仅有少量像素有标签如图像中部分像素被标记为“前景”或“背景”需要推断整张图像的标签。模型适配将有标签的像素视为观测σ已知且确定的部分。对于无标签像素我们可以将其σ视为缺失或设为中性值如0但更优雅的方式是引入一个“背景”观测分布。损失函数视角哈密顿量中的[s(x)s(y) - σ(x)σ(y)]项可以看作一种一致性损失。它要求学习到的标签场s的局部关联与由可能稀疏的观测标签σ所暗示的关联模式相一致。即使大部分σ未知该项也能通过已知标签点传播信息。发射概率P(σ|s)对于有标签的像素如果标签L(x)已知我们可以设定一个很强的发射概率例如P(σ(x)L(x) | s(x)L(x))接近1P(σ(x)L(x) | s(x)≠L(x))接近0。对于无标签像素可以设定一个均匀的发射概率表示观测不提供信息。实施步骤构建关联图基于像素特征如颜色、纹理的相似性构建一个图图中边的权重可以反映σ(x)σ(y)的期望强度。例如如果两个像素颜色非常相似即使它们都无标签我们也期望它们更可能属于同一类从而赋予该边一个正的σ(x)σ(y)虚拟值。运行带约束的推断在信念传播过程中对于有标签的节点在计算消息时将其隐藏状态s(x)固定为已知标签或赋予极高的先验概率。算法会将这些硬约束或软约束传播至整个图。利用多重吉布斯测度在只有少量标签的情况下数据可能不足以确定唯一解。此时系统可能处于相变点附近存在多个可能的吉布斯测度标签场。我们可以探索这些不同的解例如通过模拟退火从不同初始状态出发得到多个合理的标签配置从而量化预测的不确定性。5.3 异常检测问题在序列或空间数据中识别与整体模式不符的异常点。模型适配核心思想在正常数据上训练模型学习参数J和发射概率使得正常数据的联合概率P(s, σ)较高。对于新数据点计算其在该模型下的负对数似然能量H(s*, σ*)。能量显著高于正常样本阈值的点即为异常。[s(x)s(y) - σ(x)σ(y)]项的作用异常点往往破坏了局部相关性。例如在时间序列中一个异常点可能导致其与前驱点的关联σ(x)σ(y)与模型预期的隐藏关联s(x)s(y)出现巨大差异从而导致该项贡献一个很高的正能量。推断异常也可以直接进行推断。给定观测序列σ计算最可能的隐藏状态s*。如果对于某些点x其最优隐藏状态s*(x)与观测σ(x)在发射概率下极不可能同时出现即-log P(σ(x)|s*(x))很大那么点x可能就是异常。实施步骤训练阶段在正常数据集上估计模型参数。这通常是一个非平凡的学习问题需要采用诸如对比散度或最大似然估计等方法。在树结构上由于可以精确计算配分函数和梯度参数学习比一般图更可行。阈值设定计算所有正常训练样本的能量值分布设定一个百分位如95%作为异常阈值。检测阶段对新样本σ*计算其最小可能能量通过推断出最优的s*若该能量超过阈值则判为异常。常见问题排查推断结果不理想检查图结构是否合理地反映了数据中的依赖关系。在异常检测中如果正常模式本身多变单一阈值可能效果不好考虑使用自适应阈值或结合其他特征。参数学习不稳定在树结构上虽然推断精确但参数学习仍可能面临似然函数平坦或局部最优问题。尝试使用带动量的梯度下降或从多个初始点开始学习。计算复杂度信念传播在树上的时间复杂度是线性的O(N)N为节点数。但若将密集网格转为树可能会丢失大量边。对于大规模图像可以考虑使用图像金字塔或分块处理在多个尺度上构建树并进行推断。6. 超越凯莱树向一般图结构的拓展凯莱树为我们提供了严格的理论基础和高效的精确算法但现实问题中的数据往往存在于更复杂的图结构如网格、社交网络、分子图中。将本模型推广到一般图是通往实际应用的关键一步。6.1 近似推断方法在一般有环图上精确计算吉布斯测度是 #P-难问题。我们必须依赖近似方法循环信念传播直接在原图即使有环上运行信念传播算法。消息在环路中循环更新直至收敛。虽然缺乏理论保证但在许多实际问题中表现优异。其更新公式与树上类似但每个节点的消息需要汇总来自所有邻居除发送目标外的信息。平均场近似用一个完全可分解的分布Q(s) Π_x q_x(s(x))来近似真实的后验P(s|σ)并通过最小化 KL 散度来优化q_x。这推导出一组关于q_x的自洽方程通常通过迭代求解。平均场计算量小但往往低估了变量间的相关性。马尔可夫链蒙特卡洛通过 Gibbs 采样或 Metropolis-Hastings 算法从分布P(s|σ)中抽取样本。MCMC 能渐近地给出精确解但收敛速度可能很慢特别是在相变点附近。图割算法对于二值变量 (s(x)±1) 且耦合项为次模函数如铁磁耦合J0的特殊情况能量最小化MAP估计可以通过最大流/最小割算法在多项式时间内精确求解。这对于图像分割等任务极其强大。6.2 参数学习从数据中估计 J 和发射概率在实际应用中模型参数J耦合强度和发射概率P(σ|s)的参数如高斯分布的均值和方差通常需要从数据中学习。这对应于统计物理中的逆问题或机器学习中的模型训练。目标是最小化训练数据{σ^{(i)}}的负对数似然L -Σ_i log P(σ^{(i)}) Σ_i [log Z(σ^{(i)}) - (-βH(s, σ^{(i)})) 在 P(s|σ^{(i)}) 下的期望]。其梯度涉及计算期望值例如∂L/∂J β Σ_{⟨x,y⟩} [ ⟨s(x)s(y)⟩_{P(s|σ)} - ⟨σ(x)σ(y)⟩_{data} ]这里出现了模型期望与数据期望的差异。在树上⟨s(x)s(y)⟩可以通过信念传播精确计算。在一般图上则需要使用上述的近似推断方法如循环信念传播来计算这些期望进而使用梯度下降法更新参数。这套流程与训练玻尔兹曼机或条件随机场非常相似。6.3 与现有模型的联系与区别条件随机场本模型可以看作一种特殊结构的 CRF其中势函数同时依赖于相邻的隐藏变量对和相邻的观测变量对。传统的 CRF 通常只定义在隐藏变量团上。玻尔兹曼机如果将观测变量和隐藏变量全部视为“可见层”和“隐藏层”且层内、层间都有连接那么我们的模型类似于一个受限玻尔兹曼机的推广。但 RBM 通常层内无连接而我们的模型允许观测层内有连接这更适用于具有空间相关性的观测数据。图神经网络信念传播算法可以视为一种消息传递神经网络的前身。模型中的参数J和发射概率参数可以设计为可学习的从而将整个推断过程嵌入到一个端到端的深度学习框架中。将基于隐马尔可夫结构的伊辛模型从凯莱树推广到一般图并融入现代深度学习框架是一个充满前景的方向。它保留了模型清晰的概率解释和物理直觉同时又能利用梯度下降和自动微分进行高效学习为解决复杂的结构化预测问题提供了新的工具。