1. 项目概述与核心挑战在三维超声成像领域追求更高的图像对比度和空间分辨率是一个永恒的目标。传统的延迟叠加波束成形算法虽然因其计算简洁和硬件实现成熟而被广泛采用但其性能已逐渐触及瓶颈。近年来以滤波延迟乘加算法为代表的非线性波束成形技术因其在抑制旁瓣、提升对比度方面的显著潜力成为了研究热点。然而当我们将目光投向当前主流的临床三维超声成像系统时会发现一个棘手的工程现实为了实现高密度二维面阵探头的通道数缩减系统普遍在探头内部集成了专用的微波束成形器。这个µBF通常是一个固化执行DAS算法的专用集成电路其内部处理流程尤其是涉及非线性运算的部分极难甚至无法被修改。这就形成了一个矛盾先进的算法在理论上表现优异却难以在现有最普及的硬件平台上落地。我最近深入研读并复现了一项来自意大利佛罗伦萨大学团队的研究他们直面了这个核心矛盾并提出并验证了一个非常巧妙的“混合”架构思路。这个项目的核心思想可以概括为“分层处理各司其职”既然无法改动探头内部的µBF那就让它继续安心做好它的本职工作——对每个子阵内的信号进行精细延迟补偿和DAS求和。然后我们将算法创新的重任交给后端的扫描仪系统。扫描仪接收到的不再是3072个原始阵元信号而是经过µBF初步聚合后的192个通道的“块信号”。就在这个层级上研究团队应用了F-DMAS算法对这批块信号进行基于空间相干性的非线性处理。这种策略的精妙之处在于它完全规避了对现有探头硬件的任何改动仅仅通过升级扫描仪端的波束成形器固件就试图将F-DMAS的优势“嫁接”到现有的系统架构上。这项研究不仅仅是一个算法仿真它搭建了一套完整的实验验证平台将开源的ULA-OP 256扫描仪与一款商用的、集成µBF的3072阵元经食道超声探头相结合。通过对比全DAS、全F-DMAS以及这种混合DAS/F-DMAS三种架构在仿体和在体实验中的表现他们首次在实时三维成像中证实了该方案的可行性。对于从事医学超声系统研发、算法移植或图像质量优化的工程师和研究人员来说这项工作的价值在于它指明了一条切实可行的工程化路径让我们看到了在不颠覆现有硬件生态的前提下渐进式提升系统性能的可能性。2. 技术原理深度剖析从DAS到F-DMAS的演进要理解这项混合架构的价值我们必须先厘清DAS和F-DMAS的根本区别以及µBF在其中扮演的角色。2.1 传统DAS与µBF的协同工作流在高端三维超声系统中面对数千个阵元直接为每个阵元配置独立的接收通道是不现实的。因此普遍采用子阵划分策略。以一个3072阵元的阵列为例通常会将其划分为192个子阵每个子阵包含16个阵元。µBF的核心任务就是处理这16个阵元的信号。精细延迟补偿对于每个发射/接收事件系统会计算一个适用于整个子阵的“粗延迟”这个延迟对应于子阵几何中心到聚焦点的声程差。然而子阵内各个阵元到聚焦点的距离仍有微小差异这个差异对应的时延就是“精细延迟”。µBF的ASIC芯片会为子阵内的每个阵元施加这个独特的精细延迟确保子阵内所有信号在声学上是对齐的。子阵级DAS求和在完成精细延迟对齐后µBF将这16个信号进行加权求和输出一个单一的、代表该子阵整体响应的射频信号。这个过程就是一次小规模的DAS波束成形。通过这一步系统的通道数从3072锐减至192极大地降低了后端数据传输和处理的负担。此后扫描仪端的波束成形器只需对这192个子阵信号施加动态的粗延迟补偿并进行最终的求和即可完成整个图像的波束成形。2.2 F-DMAS算法的核心机制与优势F-DMAS算法的出发点与DAS有本质不同。DAS是线性的加权求和而F-DMAS则引入了非线性操作来利用信号间的空间相干性。其标准流程是首先像DAS一样对N个阵元的射频信号进行延迟对齐。然后关键的一步来了将所有延迟后的信号进行两两组合共C(N,2)对将每一对信号相乘。接着对每个乘积结果进行保留符号的开平方运算。最后将所有处理后的信号求和并通过一个带通滤波器提取出由于乘法操作产生的二次谐波成分。为什么这样做能提升图像质量我们可以从信号处理的角度来理解。假设我们接收到的信号由来自主瓣方向的有用信号和来自其他方向的干扰噪声组成。来自主瓣方向的信号由于延迟对齐在不同阵元间具有很高的相干性波形相似相位一致它们的乘积会得到较大的正值。而来自旁瓣或随机噪声的信号在不同阵元间相关性很弱乘积结果可能正可能负且幅度较小。经过求和与滤波后相干信号得到增强非相干成分被抑制从而实现了更窄的主瓣和更低的旁瓣直观表现就是图像分辨率更高、对比度更好。研究中采用的是一种计算效率更高的简化公式其输出y_DMAS可以表示为y_DMAS 0.5 * [ (Σ r_n(t))^2 - Σ |r_n(t)| ]其中r_n(t) sign(s_n(t)) * sqrt(|s_n(t)|)s_n(t)是延迟后的射频信号。这个公式将复杂度从O(N²)降低到了O(N)使其在实时系统中实现成为可能。2.3 混合架构的合理性论证那么一个很自然的问题是在µBF已经进行了一次DAS求和这本身是一种线性平滑操作之后再对求和后的块信号应用F-DMAS还有效吗这会不会因为子阵内的信号已经被“平均化”而丢失了F-DMAS所依赖的阵元间细微差异研究团队的仿真和实验共同回答了这个问题。他们的发现是有效且效果显著。原因在于虽然子阵内的DAS求和确实会平滑掉该子阵内部最高频的空间变化即16个紧密排列阵元间的细微差异但对于整个孔径192个子阵来说子阵与子阵之间的空间相干性变化仍然是丰富且可被F-DMAS利用的。F-DMAS算法在扫描仪端处理的是这192个“超级阵元”即子阵信号之间的相关性。只要目标特征如点状靶或囊性结构的尺寸大于子阵的尺寸这种块级别的相干性处理就依然能有效区分来自目标的有用信号和来自背景的干扰。此外实际系统存在的噪声和模数转换器的有限动态范围实验中为12位本身就会对极高空间频率的相位变化产生抑制。这意味着即便是“理想”的全阵元F-DMAS其输入信号也并非完美包含所有高频空间信息。因此混合架构与全F-DMAS架构之间的性能差距在实测中可能比纯仿真预测的要小。这从工程角度看反而是一个好消息它意味着我们为简化系统付出的性能代价是可接受的。3. 实验平台搭建与实时实现细节理论的美好需要坚实的实验来验证。这个项目的另一大亮点在于其构建了一个高度灵活、完全开源可控的研究平台使得如此复杂的算法验证成为可能。3.1 硬件平台ULA-OP 256与商用探头的联姻实验平台的核心是ULA-OP 256开源超声扫描仪和Oldelft公司的Adult 4D Premium TEE探头。这个组合堪称“强强联合”探头端提供了临床级的硬件基础。3072个阵元以16个为一组由集成的ASIC进行µBF处理输出192通道的模拟RF信号。探头本身是一个“黑盒”我们无法改变其内部的DAS µBF这正好符合我们研究的前提——在不改动探头的前提下提升性能。扫描仪端ULA-OP 256提供了完全可编程的硬件处理流水线。它包含多个FPGA和DSP能够实时处理256通道的RF数据。通过一块专门开发的接口板实现了对探头ASIC的精确控制包括发射序列和µBF模式的配置。这个平台支持两种关键工作模式实时成像模式探头µBF正常工作输出192通道DAS预成束信号到ULA-OP 256由扫描仪完成后续的DAS或F-DMAS波束成形并实时显示图像。原始数据采集模式这是性能评估的“金标准”模式。通过特殊配置µBF在接收时被旁路系统在16个连续的脉冲重复周期内依次选通每个子阵中的不同阵元从而采集到全部3072个阵元的原始RF信号。这些数据可以离线处理用于生成作为对比基准的“全F-DMAS”图像。3.2 F-DMAS在FPGA上的实时实现策略在ULA-OP 256上实现实时F-DMAS是一个精彩的嵌入式系统设计案例。其设计充分考虑了资源效率、时序和精度之间的平衡。处理流水线分解如图3所示实现过程被巧妙地分配在FPGA和DSP上。在FPGA端主要完成公式(1)中与单个通道相关的、计算密集的操作延迟与插值与DAS共享相同的动态延迟单元和1:16二次插值器确保亚采样精度0.8 ns。幅度与符号分离对插值后的数据并行计算绝对值MOD和提取符号位SGN。这是为后续非线性运算做准备。平方根查找表这是实现效率的关键。直接计算平方根在FPGA中非常消耗资源。这里采用了一个2048字、15位精度的只读存储器作为查找表。输入信号经过一个可编程增益调整后其幅度值作为地址输入查找表直接读出对应的平方根近似值。虽然会引入量化误差但在有限的动态范围内通过合理设置查找表深度和增益可以将误差控制在系统噪声水平以下这是一种经典的“以存储换计算”的优化策略。部分累加FPGA内的两个累加器分别计算所有通道的Σ|r_n(t)|和Σ r_n(t)。DSP的协同计算FPGA完成通道级处理后数据通过环形网络拓扑传递给DSP。DSP负责跨板卡累加将来自多个FPGA板卡的局部累加结果进行全局求和。完成核心运算根据公式y 0.5 * [ (Σ r_n)^2 - Σ |r_n| ]计算最终的F-DMAS波束输出。解调与滤波由于F-DMAS的输出主要包含二倍频分量因此解调中心频率设置为2f0例如9.8 MHz然后进行低通滤波和降采样。设计考量与取舍无接收变迹F-DMAS算法本身依赖于信号间的原始幅度关系来计算空间相干性因此不能像DAS那样施加接收变迹窗。任何幅度加权都会扭曲这种关系影响算法效果。动态范围管理F-DMAS中的平方和乘法操作会显著扩展信号的动态范围。设计中的可编程增益和输出位宽控制至关重要以防止数据溢出并充分利用ADC的量化精度。并行化为了支持高帧率成像该设计实现了四个并行的F-DMAS波束成形器与之前DAS实现的并行度持平确保了处理吞吐量。3.3 实验设计与性能评估指标为了全面评估混合架构的性能研究设计了严谨的实验方案仿体实验点扩散函数使用浸没在水中的尼龙丝靶量化评估系统的分辨率主瓣宽度和伪影水平旁瓣电平、旁瓣与主瓣能量比。对比度使用包含仿组织背景和无回声囊肿的仿体计算对比度和广义对比度噪声比。这两个指标分别反映了系统区分不同回声强度区域的能力以及目标与背景在统计上的可分离性。在体实验对健康志愿者的颈动脉进行实时双平面成像直观对比混合DAS/F-DMAS与纯DAS的成像效果验证其实时应用可行性。所有实验均对比了三种架构架构 (a) 参考F-DMAS对3072个原始阵元信号进行全F-DMAS处理离线作为理想基准。架构 (b) 全DASµBF DAS 扫描仪DAS模拟当前临床系统的标准工作模式。架构 (c) 混合DAS/F-DMASµBF DAS 扫描仪F-DMAS即本研究提出的方案。4. 实验结果分析与工程启示实验数据给出了清晰且令人鼓舞的结论下表汇总了关键的性能指标对比性能指标架构 (a) 参考F-DMAS架构 (b) µBF DAS SBF DAS架构 (c) µBF DAS SBF F-DMAS混合架构相对全DAS的提升-20dB横向分辨率最佳 (基准)最差 (比基准宽22.2%)接近基准 (仅差3.7%)显著改善接近理想水平旁瓣电平最低 (基准)最高 (差约12dB)非常接近基准 (差约1dB)大幅抑制旁瓣囊肿对比度最高 (基准)最低 (差约11-18dB)接近基准 (差约5-6dB)对比度提升显著广义对比度噪声比中等略优略低变化轻微各有优劣结果解读与洞见图像质量提升确凿无疑混合架构在分辨率和对比度这两个核心图像质量指标上相对传统的全DAS架构取得了质的飞跃。例如-20dB下的主瓣宽度收窄了约20%囊肿的对比度提升了超过11 dB。这意味着在图像上微小结构会更清晰囊性区域与周围组织的边界会更分明。性能接近理想基准更令人惊喜的是混合架构的性能损失非常小。在大多数指标上其与“金标准”的全阵元F-DMAS的差距仅在1-6 dB或几个百分点之内。这强力证明了“在扫描仪端实施F-DMAS”这一策略的有效性子阵级的预聚合并未严重损害F-DMAS算法的效能。关于gCNR的讨论混合架构的gCNR略低于全DAS架构。gCNR对噪声比较敏感。研究者分析这可能与F-DMAS算法本身会产生更宽的噪声带宽有关也可能与单帧采集受限于原始数据量巨大带来的统计波动有关。但这细微的差异6%在视觉上可能难以察觉且不影响其在高对比度分辨率上的巨大优势。实时性得到验证在体颈动脉成像实验以1 kHz的PRF实时运行生成64扫描线的图像帧率约为7.8 Hz。而在仿体实验中系统成功测试了12.5 kHz的PRF对应帧率可达约200 Hz。这证实了该混合波束成形器在FPGA上的实现是高效的没有引入显著的额外延迟完全满足实时三维成像的帧率要求。工程实践中的注意事项发射波形考虑F-DMAS依赖于非线性操作产生谐波。如果使用非线性较强的发射器如双极性脉冲产生的互调谐波可能会干扰算法自身的谐波生成。研究中使用的三电平发射器以及文献中提到的脉宽调制技术有助于塑造发射频谱抑制不必要的谐波这对于发挥F-DMAS性能很重要。直流偏移与高通滤波在射频域实现F-DMAS需要特别注意信号中的直流和低频分量。尤其是在浅表成像时发射/接收开关的寄生电容放电效应可能引入低频干扰这会影响开方和符号提取的准确性。因此必须确保模拟前端和数字部分的高通滤波器得到正确配置在信号进入非线性处理环节前有效滤除这些干扰。查找表精度与动态范围的权衡使用查找表实现平方根运算是一种高效的妥协。工程师需要根据系统ADC的位深和信号的预期动态范围精心设计查找表的大小和输入增益。过小的查找表会引入量化误差影响低幅度信号的精度过大的查找表则会消耗宝贵的FPGA存储资源。通常当查找表的量化误差低于接收链中的其他噪声源时其精度就是足够的。5. 未来展望与应用场景探讨这项研究为超声成像系统特别是三维超声系统的性能升级打开了一扇新的大门。其意义不仅在于验证了一个算法架构更在于提供了一套可操作的工程范式。对现有系统的升级价值对于已经部署的、采用集成µBF面阵探头的超声系统制造商可以通过升级扫描仪的主机软件和波束成形器固件来引入这种混合DAS/F-DMAS算法从而为现有设备带来显著的图像质量提升而无需召回或更换昂贵的探头。这具有巨大的商业和临床价值。在高帧率成像中的应用潜力本研究验证的是传统的逐线扫描模式。而超声成像的一个前沿方向是超高帧率成像例如平面波或发散波复合成像其单次发射即可覆盖整个视野。在这种模式下µBF固定的波束合成方向会成为限制。F-DMAS作为一种基于相干性的后处理算法理论上可以更好地补偿这种固定波束导向带来的图像质量下降。本研究实现的并行化F-DMAS架构支持4个并行波束成形器为向高帧率应用拓展奠定了基础。当然这需要更高的数据吞吐率和更复杂的内存访问模式是下一步硬件设计需要考虑的挑战。与其他技术的融合F-DMAS作为一种优秀的“后端”波束成形器完全可以与其他前端处理技术结合。例如与编码发射技术结合进一步提升信噪比或者与先进的复合成像技术结合在提升帧率的同时保证图像质量。这种混合架构的灵活性使得它成为一个强大的技术集成平台。关于GPU实现的思考虽然GPU在并行计算上拥有强大优势但对于超声波束成形这种对延迟和确定性要求极高的实时任务当前的GPU架构仍面临挑战。FPGA方案能够提供确定性的处理延迟和极高的数据吞吐率这对于保证成像系统的实时性和稳定性至关重要。因此在可预见的未来基于FPGA或类似专用硬件的方案仍是实现此类高级实时波束成形算法的首选。6. 总结一次成功的算法-硬件协同设计示范回顾整个工作它成功地回答了一个关键的工程问题如何在不可更改的硬件约束下最大化系统性能答案是通过精妙的系统级划分和算法创新。研究团队没有纠结于去改造那颗固化的µBF芯片而是选择接纳它并在此基础上重新定义扫描仪的角色。他们将F-DMAS这个计算密集型算法通过高度优化的方式简化公式、查找表、并行化实现在了扫描仪的FPGA上。实验结果表明这种“前端DAS后端F-DMAS”的混合策略几乎以最小的性能损耗换来了图像质量的大幅提升。从个人经验来看这项研究最值得借鉴的地方在于其务实的工程思维。它不是在真空中追求最优算法而是在现实的硬件边界内寻找最优解。它清晰地展示了从算法理论、到仿真验证、再到FPGA实现、最后到系统集成与实验评估的完整研发闭环。对于任何试图将先进算法嵌入到现有产品中的工程师而言这个过程本身就是一个极佳的范例。最后这项研究也留下了一些开放性问题例如gCNR的轻微下降根源、在更宽带宽探头下的表现、以及与更复杂发射序列的兼容性等。这些正是未来研究可以深入的方向。但无论如何这项实验研究已经坚实证明混合DAS/F-DMAS波束成形是一条通往更高品质三维超声成像的、切实可行的道路。