引言:UNet 的“瓶颈”与新希望在医学图像分割领域,UNet 自从 2015 年被提出以来,凭借其优雅的编码器-解码器结构和跳跃连接设计,几乎成为了分割任务的首选基准模型。然而,随着临床诊断对分割精度要求的不断提高,传统 UNet 的短板也日益明显:卷积操作的局部感受野限制了模型捕捉全局上下文和长距离依赖的能力。根据 2025 年发表的一项医学图像分割综述,近二十年来深度学习驱动了医学图像分割的快速发展,但如何有效建立像素之间的长距离依赖关系仍是核心挑战之一。Transformer 的出现似乎提供了答案。自注意力机制可以让模型“看到”整张图像上任意两个位置之间的关系,完美解决了长程依赖问题。但代价同样巨大——标准的自注意力计算复杂度为 O(n²),对于高分辨率的医学图像来说几乎是不可承受的计算负担。医学图像通常具有高分辨率特性,将图像拆分为大量小块会导致计算负担剧增;此外,医学图像数据集通常规模有限,训练复杂的 Transformer 模型容易导致过拟合。轴向注意力(Axial Attention)正是在这一矛盾中诞生的折中方案。它将二维自注意力分解为沿行方向和列方向的两个一维自注意力操作,在保持捕捉长距离依赖能力的同时,将计算复杂度从 O(n²) 降至 O(n√n)。本文将从理论原理到工程实践,系统性地探讨如何将轴向注意力模块引入 UNet 分割模型,并结合近三个月(2026 年 1 月至 2026 年 4 月)的最新研究进展,覆盖架构设计、竞品对比、部署方案与安全风险等多个维度。