1、研究动机论文主要解决超高分辨率UHR遥感图像语义分割问题现有方法采用多分支架构如 GLNet、ISDNet以同时保留局部细节与全局语义但这类方法存在两个问题一是分支内部计算效率低如反复裁块推理二是多分支并行训练引发梯度竞争导致收敛不稳定与特征对齐困难。该论文从频率域视角出发通过将图像分解为高低频分量并为各分量设计专属分支同时引入专用损失函数解决上述问题。2、模型框架模型整体框架如下图所示首先将UHR 图像动态分解为高频分量与低频分量高频分量使用 Mamba 提取特征低频分量又分为 短程依赖子分支局部语义与长程依赖子分支全局上下文分别处理。后面再用频率融合模块和两个辅助损失把三路信息对齐、稳定训练。总体为三分支结构高频分支采用基于状态空间模型VMamba的多阶段编码器提取层次化表示短程子分支基于 CNN 骨干网络建模局部语义特征长程子分支基于轻量级VIT建模长程全局依赖1Adaptive Frequency Decomposition论文设计了自适应频率分解可以根据输入遥感图像自身纹理、边缘、内容复杂度动态将原图拆分为 高频特征分量 低频特征分量。具体流程为1、将通道划分成多个 group。2、每个 group 根据自身内容生成一个低通滤波器。3、用低通滤波器提取低频信息。4、高频滤波器通过 “恒等滤波器减去低频滤波器” 得到。2Hybrid-Frequency Fusion第一步对于输入的FsF_sFs​和FlF_lFl​特征首先计算通道维度的 attentionAs∈RCsA_s\in\mathbb{R}^{C_s}As​∈RCs​和Al∈RClA_l\in\mathbb{R}^{C_l}Al​∈RCl​计算特征通道关系Mσ(AsAlT)∈RCs×ClM\sigma\left(A_{s} A_{l}^{T}\right) \in \mathbb{R}^{C_{s} ×C_{l}}Mσ(As​AlT​)∈RCs​×Cl​,该矩阵刻画了输入特征不同通道间的全局关联。第二步引入两个独立 MLP 对MMM做维度匹配再分别与矩阵 A相加得到精细化注意力权重A~s、A~l\tilde{A}_s、\tilde{A}_lA~s​、A~l​。再用 1×1 卷积统一两个分支的通道维度加权相加得到融合特征。3Cross-Frequency Alignment Loss强制高低频分支在语义层面保持一致消除频率带来的表征偏差。使用 KL 散度来实现约束。4Cross-Frequency Balance Loss各分支的梯度大小差距很大如果某条分支梯度大则参数更新快、网络过度偏向这条分支学习。容易变成单分支主导其他分支失效模型整体性能下降。CFBL 就是主动约束所有分支的梯度大小让每条分支的学习力度保持均衡。