摘要医学图像分割旨在从CT、MRI等医学影像中自动勾画器官、病灶等解剖结构是计算机辅助诊断、治疗规划与病理分析的关键技术。面对标注数据稀缺、组织对比度低、形态差异大与3D空间各向异性等挑战UNet以其优雅的编码器-解码器架构与跳跃连接成为该领域的基石并衍生出Attention UNet、UNet等众多变体。nnU-Net进一步以自适应配置框架取代手工调参大幅提升了分割模型的鲁棒性与泛化能力。本文系统梳理UNet变体的设计思想、nnU-Net的自动化方法论以及3D分割面临的独特挑战与应对策略结合前沿视觉Transformer与基础模型进展为医学图像分割的研究与实践提供全面的技术指南。一、引言医学影像是现代临床诊疗不可或缺的视窗。从X光片、CT计算机断层扫描到MRI磁共振成像与超声这些模态以非侵入方式揭示了人体内部的解剖结构与功能状态。然而海量的影像数据与有限的放射科医师之间存在着尖锐矛盾——一位放射科医生每天可能需审阅数百张CT切片长时间的重复劳动不仅效率低下更易因视觉疲劳导致微小病灶的漏检。医学图像分割技术正是为破解这一困境而生它让计算机自动从影像中勾画出器官边界、标记出病灶区域为医生提供精准的量化分析与辅助诊断依据。医学图像分割的临床应用场景极为丰富在肿瘤放射治疗中精确勾画靶区与危及器官是制定放疗计划的前提在手术导航中实时分割出血管与神经结构可辅助医生规避风险在流行病学研究中自动测量器官体积与脂肪分布为大规模队列分析提供可能在药物研发中动物模型影像的自动分析加速了药效评估流程。然而医学图像分割面临着通用自然图像分割所没有的独特挑战标注数据极度稀缺医学影像的像素级标注需由经验丰富的临床医生完成耗时且昂贵公开数据集规模远小于ImageNet、COCO等自然图像数据集。组织对比度低下CT中软组织之间、MRI中不同序列下的病灶与正常组织之间灰度差异微乎其微边界模糊不清。形态变化剧烈同一器官在不同个体、不同年龄、不同疾病状态下呈现截然不同的形状与纹理肿瘤更是形态万千、边界浸润。3D空间各向异性CT与MRI是三维体数据但沿扫描轴通常为z轴的分辨率往往远低于断面内分辨率导致体素呈非等距分布直接破坏标准3D卷积的平移等变性假设。类别极度不平衡小病灶如肺结节仅占全图体素的百万分之几背景体素占据绝对主导。为应对上述挑战深度学习方法、尤其是全卷积网络已成为医学图像分割的事实标准。2015年Ronneberger等人提出的UNet凭借对称的编码器-解码器结构与跳跃连接在极少量标注样本下实现了惊人的分割精度迅速成为该领域的基石架构。此后研究者从注意力机制、密集连接、深度监督等角度对UNet进行了大量改进衍生出Attention UNet、UNet、ResUNet等众多变体。2020年Isensee等人提出的nnU-Net更是以“无需人为调参”的自动化配置理念在数十项医学分割竞赛中霸榜将方法鲁棒性推向前所未有的高度。然而当分割对象从2D切片扩展到完整的3D体数据时显存限制、各向异性与全局上下文建模之间的矛盾愈发尖锐催生了3D UNet、V-Net以及滑动窗口推理等一系列专门技术。近年来视觉Transformer以其全局感受野与动态加权能力为医学图像分割带来了新的范式变革——UNETR、SwinUNETR、SAM-Med等模型正在重新定义性能上限。本文将从这些维度系统阐述医学图像分割的核心技术。第二节介绍医学图像分割的任务定义、评价指标与主流数据集第三节深入剖析UNet及其经典变体的设计思想第四节详述nnU-Net的自适应配置方法论第五节聚焦3D医学图像分割的独特挑战与应对策略第六节探讨视觉Transformer与基础模型在医学图像分割中的前沿进展第七节总结并展望未来。二、医学图像分割基础2.1 任务形式化定义设输入医学影像为体数据X∈RD×H×W\mathbf{X} \in \mathbb{R}^{D \times H \times W}X∈RD×H×W3D或RH×W\mathbb{R}^{H \times W}RH×W2D像素/体素强度反映组织的物理属性CT的Hounsfield单位、MRI的弛豫时间等。医学图像分割的目标是为每个空间位置(i,j,k)(i, j, k)(i,j,k)预测一个语义类别标签y∈{1,2,…,C}y \in \{1, 2, \dots, C\}y∈{1,2,…,C}。输出为与输入同尺寸的分割标签图Y\mathbf{Y}Y。根据分割目标可分为器官分割如肝脏、肾脏、心脏的完整轮廓勾画。病灶分割如肺结节、脑肿瘤、乳腺肿块的边界提取。细胞/组织分割病理切片中细胞核、腺体结构的识别。2.2 常用评价指标医学图像分割的评价需兼顾区域重叠度与边界距离。Dice相似系数衡量预测区域PPP与真实区域GGG的重叠程度是应用最广的指标。Dice(P,G)2∣P∩G∣∣P∣∣G∣ \text{Dice}(P, G) \frac{2 |P \cap G|}{|P| |G|}Dice(P,G)∣P∣∣G∣2∣P∩G∣​取值[0,1][0, 1][0,1]越大越好。Jaccard指数IoUIoU∣P∩G∣∣P∪G∣\text{IoU} \frac{|P \cap G|}{|P \cup G|}IoU∣P∪G∣∣P∩G∣​与Dice存在一一对应关系。Hausdorff距离HD衡量预测边界与真实边界之间的最大距离反映最差情况下的边界偏差。HD(P,G)max⁡(max⁡p∈∂Pmin⁡g∈∂G∥p−g∥,max⁡g∈∂Gmin⁡p∈∂P∥g−p∥) \text{HD}(P, G) \max\left( \max_{p \in \partial P} \min_{g \in \partial G} \|p - g\|, \max_{g \in \partial G} \min_{p \in \partial P} \|g - p\| \right)HD(P,G)max(p∈∂Pmax​g∈∂Gmin​∥p−g∥,g∈∂Gmax​p∈∂Pmin​∥g−p∥)取值越小越好。95% Hausdorff距离HD95剔除5%的离群点更稳健。平均表面距离ASD预测边界上每个点到真实边界的平均最短距离。2.3 主流数据集与竞赛数据集/竞赛模态目标规模维度BraTS多序列MRI脑肿瘤分割~2000例3DLiTSCT肝脏与肝肿瘤分割13170例3DKiTSCT肾脏与肾肿瘤分割~300例3DACDCMRI心脏多结构分割150例3DPancreas-CTCT胰腺分割82例3DSynapseCT多器官分割30例3DISIC皮肤镜图像皮肤病变分割数千例2DGlaS病理切片腺体分割165张2D这些数据集规模普遍偏小几十至几百例标注精细度各异是医学图像分割方法泛化能力的重要试金石。三、UNet及其经典变体3.1 原始UNet对称编解码与跳跃连接UNet由Ronneberger等人于2015年提出最初用于细胞壁分割。其架构因形似字母“U”而得名由收缩路径编码器和扩张路径解码器对称构成。编码器遵循经典CNN设计重复应用两个3×33 \times 33×3卷积后跟ReLU和一个2×22 \times 22×2最大池化进行下采样。每次下采样后通道数倍增如64→128→256→512→1024共进行4次下采样。解码器与编码器对称每一步包括一个2×22 \times 22×2转置卷积上采样、与对应编码器层特征的跳跃连接拼接、以及两个3×33 \times 33×3卷积。通道数逐层减半最终通过1×11 \times 11×1卷积输出与类别数等通道的分割概率图。UNet的精髓在于跳跃连接将编码器浅层的高分辨率特征直接传递给解码器对应层为深层语义信息补充精细的空间细节。这一设计弥合了“语义强但分辨率低”的深层特征与“分辨率高但语义弱”的浅层特征之间的鸿沟使UNet在极少量训练样本下即可产生锐利的分割边界。UNet的另一特色是重叠-切块策略为处理大尺寸图像将输入切分为相互重叠的局部块进行训练推理时再将块预测结果拼接重叠区域取加权平均。这一策略不仅解决了显存限制还起到了数据增强的作用。UNet的损失函数常采用加权交叉熵在细胞/组织边界处赋予更高权重促进边界分割。后续工作更普遍采用Dice Loss或其与交叉熵的组合作为优化目标。3.2 Attention UNet让解码器聚焦相关区域标准UNet的跳跃连接将编码器特征无差别地拼接到解码器。然而编码器浅层特征包含大量背景与噪声信息直接传入解码器可能干扰精细分割。Attention UNet在跳跃连接前引入注意力门控使得解码器能够自适应地选择编码器特征中与当前分割任务最相关的部分。注意力门控接收两个输入门控信号g\mathbf{g}g来自解码器上一层的粗尺度特征携带“当前正在分割哪个区域”的语义信息。编码器特征x\mathbf{x}x来自跳跃连接的浅层特征。二者的交互通过以下操作实现将x\mathbf{x}x和g\mathbf{g}g分别通过1×11 \times 11×1卷积对齐后相加经ReLU和Sigmoid生成空间注意力系数α∈[0,1]H×W\boldsymbol{\alpha} \in [0, 1]^{H \times W}α∈[0,1]H×W再与x\mathbf{x}x逐元素相乘。注意力系数在目标器官区域趋近于1在背景区域趋近于0有效抑制了无关区域的干扰。Attention UNet在胰腺分割、脑肿瘤分割等任务中显著提升了边界精度与小目标检测能力参数量增加却极小。3.3 UNet密集跳跃连接与深度监督UNet的核心思想是缩小编码器与解码器特征之间的语义鸿沟。原始UNet直接将编码器浅层特征拼接到解码器深层但二者在语义层次上差距悬殊——浅层是边缘纹理信息深层是类别抽象信息。UNet通过在跳跃连接路径上插入密集的卷积块构建了一系列嵌套的、逐层递进的融合节点。UNet的架构可视为一个编码器-解码器森林不同深度的编码器特征通过稠密连接逐步融合在多个语义层次上实现信息交互。每个融合节点的输入来自同一层的编码器节点和所有更浅层的解码器节点输出向上传递。此外UNet引入了深度监督在网络的多个不同深度从最深解码器到最浅解码器均施加分割损失使得不同深度的子网络都能独立输出分割结果。深度监督不仅加速了训练收敛更赋予了模型可灵活调整推理深度的能力——在资源受限时可提前截断解码器用较浅子网络快速推理以少量精度换取速度。3.4 其他代表性UNet变体ResUNet将UNet中的基础卷积块替换为残差块引入恒等映射缓解深层网络梯度消失使网络可以更深、更易优化。广泛用于视网膜血管分割、遥感图像分割。DenseUNet借鉴DenseNet思想将编码器中的卷积块变为密集连接块最大化特征重用和信息流动。MultiResUNet引入多分辨率卷积块MultiRes Block在每个特征尺度上使用不同大小的卷积核并行提取特征并融合并设计了残差路径替代普通跳跃连接进一步平衡深浅层语义差异。DoubleUNet将两个UNet级联第一个UNet的输出与输入图像相乘后再送入第二个UNet形成由粗到精的分割管道。3.5 UNet变体的设计启示回顾UNet及其变体的演进可以提炼出两条设计主线如何更有效地融合多尺度特征跳跃连接是基石注意力门控实现了“选择性融合”密集嵌套连接UNet缩小了语义鸿沟。如何让网络更容易训练残差连接ResUNet、深度监督UNet从梯度流角度优化了深层网络的训练动力学。这些思想不仅适用于医学图像分割也深刻影响了通用分割架构的设计。四、nnU-Net自适应配置的鲁棒分割框架尽管UNet及其变体在特定任务上表现优异但其在新任务上的成功高度依赖于专家手工调参——预处理策略、网络拓扑、批量大小、学习率、后处理步骤等大量超参数需针对每个数据集精细调整。这使得模型从一个任务迁移到新任务时往往需要大量实验和领域知识。nnU-Netno-new-Net由Isensee等人于2020年提出其核心主张是不需要新的网络架构只需根据数据集特性自动配置预处理、训练与推理策略即可在几乎任何医学分割任务上取得鲁棒的高性能。这一理念在数十项国际医学分割竞赛中得到了充分验证——nnU-Net以其“开箱即用”的特性持续霸榜成为医学图像分割领域的事实标准框架。4.1 nnU-Net的设计哲学nnU-Net并非提出一种新的网络架构而是将研究重心从架构创新转移到系统化的自动配置。它基于一个朴素但强大的观察U-Net风格的架构在给定合理配置的前提下足以胜任绝大多数医学分割任务传统方法之间的性能差异更多来源于数据预处理、训练策略和后处理的不一致而非架构本身。因此nnU-Net的核心贡献是一套自动化的管道给定一个训练数据集及其标注只需一行命令nnU-Net便会自动分析数据集的特性如体素间距、灰度分布、目标尺寸并据此自动确定预处理参数、网络拓扑、批量大小、训练轮数与推理策略无需任何人工干预。4.2 自动数据指纹提取与规则化配置nnU-Net的起点是数据集指纹——通过对训练集统计特征的自动分析生成一组描述数据特性的元参数。裁剪区域决策分析所有标注掩膜确定前景区域边界自动裁去无关背景区域降低输入尺寸和计算量。重采样策略医学影像数据集的体素间距spacing千差万别。nnU-Net统计所有训练样本的体素间距中位数作为目标间距。若某样本的体素间距与目标间距差异过大则进行三阶样条插值图像和最近邻插值标注重采样。这一策略使网络能够在近似各向同性的空间中学习同时避免所有样本强行统一间距带来的信息损失。灰度归一化对于CT图像nnU-Net使用自适应窗宽窗位裁剪依据前景区域的灰度分布自动确定裁剪范围并Z-score归一化对于MRI等其他模态直接进行Z-score归一化。4.3 自动网络配置基于数据集指纹nnU-Net自动推导出适于该任务的网络拓扑与训练超参数。网络拓扑nnU-Net提供三种预定义的网络蓝本——2D UNet处理单张切片、3D全分辨率UNet处理完整3D块和3D级联UNet先低分辨率粗略定位再高分辨率精细分割。具体使用哪种或哪几种组合由数据集的目标尺寸分布和GPU显存限制自动决定。批量大小与块尺寸根据可用GPU显存自动选择最大的可行批量大小和块尺寸patch size以充分利用硬件资源。训练策略采用五折交叉验证自动确定学习率衰减策略poly学习率使用Dice Loss与交叉熵损失之和作为优化目标并自动配置数据增强管线旋转、缩放、弹性形变、伽马校正等。4.4 推理与后处理推理阶段nnU-Net使用滑动窗口在完整图像上逐块推理块间重叠区域取半高斯加权平均以确保无缝拼接。若任务配置了2D与3D模型的组合则将二者的预测概率图进行加权融合。后处理方面nnU-Net强制执行连通域分析对于器官分割等任务保留最大的一个或多个连通域剔除散在误检像素。若数据集提供标签层级关系则自动执行标签强制如确保“肝肿瘤”标签不出现在“肝脏”标签之外。4.5 nnU-Net的成功启示nnU-Net的成功传递了重要信息在医学图像分割中工程系统的健壮性往往比孤立的架构创新更为关键。一个自动化的、可复现的、针对数据特性自适应配置的完整管道能够稳定地超越大量手工调参的“精巧”模型。这一思想深刻影响了后续的医学影像分析研究范式的转变——从“设计一个新网络”转向“构建一个自适应系统”。五、3D医学图像分割的独特挑战与应对策略CT和MRI本质上是三维体数据。理论上3D卷积网络能够充分利用空间连续性捕获跨切片上下文信息比逐切片2D分割更具优势。然而将分割从2D扩展到3D面临着一系列工程与算法层面的尖锐挑战。5.1 空间各向异性CT/MRI扫描的断面内分辨率x-y平面通常远高于层间分辨率z轴。例如一个典型的腹部CT体素间距为0.7×0.7×5.00.7 \times 0.7 \times 5.00.7×0.7×5.0mmz轴间距是x-y的7倍。这种各向异性破坏了三维空间的等距性使标准3D卷积无法公平对待各方向信息。应对策略重采样至各向同性将体数据插值重采样为等距体素如1×1×11 \times 1 \times 11×1×1mm。优点是可以直接应用标准3D卷积缺点是插值可能引入伪影且若z轴分辨率极低强行各向同性会生成大量冗余切片增加计算负担。各向异性卷积在x-y平面使用标准3×33 \times 33×3卷积在z轴使用较小的1×11 \times 11×1或1×31 \times 31×3卷积适应不均匀的分辨率。2.5D方法取连续若干张相邻切片如3-7张堆叠为多通道2D输入用2D卷积处理既捕获了有限的跨切片上下文又避免了3D卷积的巨大开销。5.2 显存限制与块处理一个中等大小的3D医学影像如512×512×400512 \times 512 \times 400512×512×400体素若直接输入3D网络即使使用1个通道、batch size为1所需GPU显存也极易超出普通GPU容量24 GB。因此块处理是必不可少的工程方案。滑动窗口推理将大体积数据切分为相互重叠的3D块逐块输入网络预测再将各块结果按空间位置拼接重叠区域采用高斯加权取平均以消除块边界效应。这一方法通用性强但需处理块间冗余计算和拼接效率问题。随机块采样训练训练时每个iteration从训练体数据中随机裁剪一个固定尺寸的块patch进行前向反向。为保证正负样本平衡通常强制块中心以一定概率落在前景区域中心点强制采样策略。块尺寸的设定受到显存限制和感受野需求之间的权衡——块太小则上下文信息不足块太大则无法训练。5.3 类别极度不平衡医学图像中小病灶如肺结节、微出血灶仅占全图体素的极小比例可能0.01%0.01\%0.01%。若不加处理模型将被海量易分背景体素主导完全忽略前景。应对策略Dice Loss及其变体Dice Loss直接优化重叠度量对前景-背景不平衡天然鲁棒。Focal Tversky Loss、Combo LossDice 加权交叉熵进一步提升了对困难样本的关注。中心点/高斯热力图监督借鉴关键点检测思想为小目标生成连续的热力图监督缓解正样本稀疏问题。难例挖掘训练时动态筛选损失最高的体素或块进行重点优化。5.4 标注稀疏性与半监督/自监督学习3D医学影像的体素级标注极为昂贵。一个腹部CT的多器官精细标注可能需要资深放射科医生工作数小时。因此少样本学习和半监督学习在医学分割中尤为重要。自监督预训练利用大量无标注影像数据进行上下文恢复、旋转预测、对比学习等自监督任务使编码器学习到解剖结构的内在表征再在下游少量标注数据上微调。半监督学习结合少量全标注数据和大量无标注数据通过一致性正则化对无标注数据施加扰动后模型输出应保持一致或伪标签自训练提升性能。跨模态迁移将在一个模态如CT上训练的模型通过域自适应迁移到另一个模态如MRI减少重复标注需求。六、视觉Transformer与基础模型医学分割的新范式6.1 视觉Transformer的引入卷积神经网络受限于局部感受野对于需要全局上下文理解的任务如识别扩散性病灶、理解器官布局存在固有不足。2021年以来视觉Transformer以其全局自注意力机制开始在医学图像分割领域展露锋芒。UNETR将Transformer编码器嵌入UNet结构将3D输入切分为体素块线性投影后送入12层Transformer编码器利用多头自注意力捕获全局依赖。解码器则采用类似UNet的逐步上采样与跳跃连接跳跃连接的源端为Transformer编码器不同层的输出特征。UNETR在BraTS等脑部多模态分割任务中超越了基于CNN的UNet。SwinUNETR进一步引入了Swin Transformer的滑动窗口注意力机制在保持线性计算复杂度的同时通过移位窗口实现跨窗口信息交互。SwinUNETR在多项3D医学分割竞赛中刷新了纪录。6.2 基础模型SAM及其医学适配Meta AI发布的Segment Anything Model以其强大的零样本泛化能力震惊了计算机视觉界。尽管SAM主要在自然图像上训练其对物体边界的敏锐感知使其在医学图像上同样展现出潜力。然而直接将SAM应用于CT/MRI面临诸多障碍SAM处理2D图像无法理解3D空间连续性SAM的提示机制点击、框在医学标注流程中不够自然。为此研究者迅速推出了一系列医学适配版本MedSAM在超过一百万张医学图像涵盖多种模态和解剖结构上微调SAM使其适应医学影像的灰度分布和形态特征。SAM-Med2D将SAM改造为医学图像分割的端到端工具支持边界框、点等交互方式。SAM3D、FastSAM3D将SAM的2D分割能力扩展到3D体数据通过切片间传播或稀疏提示实现高效3D分割。基础模型在医学图像分割中的角色仍在快速演化。其最大价值或许不在于“零样本完成任务”而在于作为强大的特征提取器为下游任务提供泛化性极强的表征从而极大降低对标注数据的依赖。6.3 多模态融合与报告生成临床诊断往往综合多种影像模态如CT PETT1 T2 FLAIR MRI。多模态分割模型需设计高效的跨模态融合机制。常见策略包括输入级融合将多模态图像作为不同通道堆叠输入网络。特征级融合各模态经独立编码器提取特征后通过注意力机制或门控网络进行动态融合。决策级融合各模态独立分割融合最终预测概率。此外医学图像分割正与放射学报告生成、视觉问答等任务融合形成多模态医疗AI系统具有巨大的临床应用前景。七、代码实践nnU-Net风格的自适应配置示例以下代码片段展示了nnU-Net数据指纹提取与自动配置的简化逻辑。importnumpyasnpdefextract_dataset_fingerprint(images,labels):提取数据集指纹spacings[img.spacingforimginimages]median_spacingnp.median(spacings,axis0)foreground_intensities[]forimg,lblinzip(images,labels):masklbl0ifmask.sum()0:foreground_intensities.append(img[mask])all_fgnp.concatenate(foreground_intensities)fg_lownp.percentile(all_fg,0.5)fg_highnp.percentile(all_fg,99.5)patch_sizes[lbl.shapeforlblinlabels]median_patchnp.median(patch_sizes,axis0)fingerprint{median_spacing:median_spacing,fg_intensity_range:(fg_low,fg_high),median_patch_size:median_patch,num_modalities:images[0].shape[0]ifimages[0].ndim4else1}returnfingerprintdefauto_configure_network(fingerprint,gpu_memory_gb11):根据指纹自动配置网络spacingfingerprint[median_spacing]# 检查各向异性程度anisotropicnp.max(spacing)/np.min(spacing)3ifanisotropic:plans[3d_fullres,2d]else:plans[3d_fullres]# 根据GPU显存估算batch size和patch sizepatch_sizefingerprint[median_patch_size]# ... 复杂的内存估计逻辑 ...returnplans,patch_sizeprint(nnU-Net风格的自动配置流程数据集指纹 → 规则 → 训练计划)八、总结与展望从UNet优雅的编码器-解码器架构到其众多变体在多尺度融合、注意力机制上的持续优化再到nnU-Net以工程系统化思维将分割性能推向鲁棒性巅峰医学图像分割在近十年间取得了令人瞩目的成就。3D卷积、滑动窗口推理、混合精度训练等技术使得在完整体数据上的分割成为可能视觉Transformer和基础模型正带来新的范式革新。然而医学图像分割距离“完全自动、完全可信、无处不在”的理想仍有漫长道路。可解释性——模型为何在此处勾画边界——是取得临床信任的前提跨机构泛化——在不同医院、不同扫描设备上表现如一——仍是痛点持续学习——模型部署后仍能从新病例中持续改进而不遗忘旧知识——是实用化的关键。未来随着多模态融合、自监督学习、基础模型与医疗大数据的深度结合我们有望迎来一个新时代只需极少甚至不需人工标注机器即可精准地勾勒出病灶与器官的轮廓成为医生手中可信赖的“第三只眼”真正让智能影像分析惠及每一位患者。参考文献主要列举Ronneberger, O., Fischer, P., Brox, T. (2015). U-Net: Convolutional networks for biomedical image segmentation.MICCAI.Isensee, F., Jaeger, P. F., Kohl, S. A., Petersen, J., Maier-Hein, K. H. (2021). nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation.Nature Methods.Çiçek, Ö., Abdulkadir, A., Lienkamp, S. S., Brox, T., Ronneberger, O. (2016). 3D U-Net: learning dense volumetric segmentation from sparse annotation.MICCAI.Oktay, O., Schlemper, J., Folgoc, L. L., Lee, M., Heinrich, M., Misawa, K., … Rueckert, D. (2018). Attention U-Net: Learning where to look for the pancreas.MIDL.Zhou, Z., Siddiquee, M. M. R., Tajbakhsh, N., Liang, J. (2018). UNet: A nested U-Net architecture for medical image segmentation.DLMIA.Hatamizadeh, A., Tang, Y., Nath, V., Yang, D., Myronenko, A., Landman, B., … Xu, D. (2022). UNETR: Transformers for 3D medical image segmentation.WACV.Tang, Y., Yang, D., Li, W., Roth, H. R., Landman, B., Xu, D., … Hatamizadeh, A. (2022). Swin UNETR: Swin Transformers for semantic segmentation of brain tumors.MICCAI.Milletari, F., Navab, N., Ahmadi, S. A. (2016). V-Net: Fully convolutional neural networks for volumetric medical image segmentation.3DV.Ma, J., He, Y., Li, F., Han, L., You, C., Wang, B. (2024). Segment anything in medical images.Nature Communications.Chen, J., Lu, Y., Yu, Q., Luo, X., Adeli, E., Wang, Y., … Zhou, Y. (2021). TransUNet: Transformers make strong encoders for medical image segmentation.arXiv preprint.