针对高光谱图像分类中由微小光谱变化引起分类误差和地物分布不均的挑战北京理工大学光电学院许廷发教授科研团队开展了双阶段光谱超像素人工智能分类方法研究取得了突破性进展。该研究成果以题为“Dual-stage Hyperspectral Image Classification Model with Spectral Supertoken”的论文形式发表在ECCV上并开源了代码。论文paper代码github出处ECCV2024单位北理工目录1.摘要2.解决问题2.1研究问题2.2核心思路3.主要创新点3.1首个两阶段端到端可训练的高光谱图像分类深度网络3.2基于光谱导数的像素聚类算法Spectrum-Derivative-based Pixel Clustering3.3基于类比例的软标签Class-Proportion-based Soft Label, CPSL3.4计算效率4.实验结果5.总结1.摘要高光谱图像分类是一项将预定义类别分配给遥感场景高光谱图像中每个像素的任务由于忽略了光谱相似像素之间的相关性导致边缘定义不准确难以管理相邻区域中的微小光谱变化。为此科研团队提出了一种创新性的双阶段光谱超像素分类网络DSTC架构具体如图1所示。引入了受超像素概念启发的新型双级光谱Supertoken分类器(DSTC)。主要采用基于光谱导数的像素聚类将具有相似光谱特征的像素分组为光谱超级标记。通过将标记的分类投影到图像空间上获得了像素级结果保持了区域分类一致性和精确边界。此外根据标记内的多样性构建了一种基于类比例的软标签。该标签根据不同类别的普遍性自适应地为其分配权重有效应对地物分布不均的问题增强了分类算法的精度。2.解决问题2.1研究问题高光谱图像分类HSIC旨在为每个像素分配预定义的地物类别即高光谱语义分割现有方法尤其是逐像素分类的深度学习模型存在两个主要缺陷边界不精确忽略了光谱相似像素之间的相关性导致不同类别区域的边缘模糊或错误。区域分类不一致在连续区域内即使只有微小光谱变化也会产生不一致的分类结果。2.2核心思路受Faster R-CNN 两阶段目标检测框架和超像素superpixel概念启发作者提出DSTC—— 一个两阶段、端到端可训练的高光谱图像分类网络阶段一将光谱相似的像素聚类成“光谱超令牌Spectral Supertoken, SST”每个超令牌代表一组连续且光谱相似的区域。阶段二利用 Transformer 对这些超令牌进行分类再将分类结果投影回图像空间得到像素级分类图。此外为解决一个超令牌可能包含多种地物的问题提出基于类比例的软标签CPSL作为监督信号。3.主要创新点创新点总结双阶段光谱supertoken分类器 (DSTC)DSTC 模型旨在解决单阶段逐像素分类模型的缺点使用两阶段的过程来分类高光谱图像。基于光谱导数的像素聚类该技术将具有相似光谱特征的像素聚类成光谱supertoken有助于保持区域分类的一致性和精确的边界定义。基于类别比例的软标签创新的标签方法根据各类别在每个supertoken中的比例分配权重。该方法有效地管理数据分布不平衡问题并提高分类性能。软标签的创新点底层逻辑就是Dynamic该核心思想在深度学习流行了快十年了还是这么经用经久不衰肯定有其物理道理的发散下思维真实世界也是如何不是非黑即白的Dynamic这段是题外话看不懂可以跳过不看。3.1首个两阶段端到端可训练的高光谱图像分类深度网络问题背景传统两阶段方法如 Tu 等人[35]依赖手工特征如形状属性和滤波后处理性能有限且计算成本高而现有深度学习方法多为单阶段逐像素分类。DSTC 的突破将“像素聚类生成超令牌”和“令牌分类”两个阶段无缝集成到一个端到端可训练的深度神经网络中。第一阶段通过可微分的聚类模块基于关联矩阵的迭代更新生成超令牌梯度可以反向传播到特征编码器。第二阶段直接用 Vision Transformer 对超令牌进行分类避免了传统超像素方法如 SLIC无法并行加速、无法端到端学习的缺点。优势既保留了超像素方法在区域一致性和边界精确性上的优势又利用了深度学习的端到端优化能力。3.2基于光谱导数的像素聚类算法Spectrum-Derivative-based Pixel Clustering动机仅靠原始光谱或深度特征进行聚类对微小光谱变化不敏感且易受噪声影响。高光谱数据中光谱导数一阶和二阶能增强光谱曲线的局部变化特征有助于分离重叠峰、揭示细微光谱差异。具体实现计算一阶光谱导数 I′I′ 和二阶导数 I′′I′′公式 3-4。在迭代聚类过程中每个像素的相似度计算同时融合了深度语义特征 FDFD​原始光谱特征的线性映射 IaIa​一阶导数特征的线性映射 Ia′Ia′​关联矩阵更新公式公式 5At(ij)e−∥FD(i)Ia(i)Ia′(i)−Pt−1(j)∥2At(ij)e−∥FD​(i)Ia​(i)Ia′​(i)−Pt−1(j)∥2通过加权和更新聚类中心公式 6迭代 T 次得到最终聚类。创新点首次在高光谱图像分类的端到端网络中引入多阶光谱导数作为显式聚类特征。实验表明添加一阶导数显著提升性能而二阶导数因冗余信息反而略有下降表 6因此最终模型仅使用一阶导数。效果可视化图 5显示聚类边界与自然地物边界高度吻合有效提升区域分类一致性和边界精度。3.3基于类比例的软标签Class-Proportion-based Soft Label, CPSL问题一个超令牌可能覆盖多个地物类别例如一个区域包含 70% 的森林和 30% 的草地。如果使用“硬标签”仅分配一个主导类别会忽视小类别的存在加剧数据不平衡问题。CPSL 的构造利用阶段一得到的关联矩阵 AA 过滤每个超令牌对应的像素级真实标签公式 11。统计每个超令牌内各个类别出现的次数或比例得到 L∈RM×C′L∈RM×C′其中每一行是一个超令牌的软标签各类别占比。训练时交叉熵损失使用这些软标签作为目标公式 12而不是 one-hot 硬标签。创新点与普通“密集像素级 CE 损失”dense-CE相比CPSL 直接对超令牌的混合组成进行监督更符合实际地物分布。实验表 7表明使用硬标签时 CF1 仅 0.443效果极差使用 dense-CE 为 0.699而使用 CPSL 达到0.721证明 CPSL 能有效缓解类别不平衡、提升分类精度。3.4计算效率除以上三点创新外论文特别强调了 DSTC 的计算效率聚类过程支持 CUDA 加速不像 SLIC 需要大量迭代且不兼容 GPU。在 WHU-OHS 数据集上DSTC-RResNet18 骨干仅需17.87 G FLOPs和4.00M 参数推理速度达到110.5 FPS远超对比方法如 CLSJE 需 412 G FLOPs仅 26.5 FPS。这使得 DSTC 适用于实时或近实时的高光谱图像处理任务。4.实验结果实验结果是基于WHU-OHS数据集珠海一号高光谱数据的波段数为32,。可视化分类结果可视化聚类效果在其他三个数据集上的量化精度对比在其他三个数据集上的可视化结果对比超参数影像对比5.总结DSTC 论文的核心贡献可概括为框架创新提出第一个端到端两阶段深度网络用于高光谱分类将像素聚类与令牌分类统一优化。特征创新引入光谱导数辅助的像素聚类增强对微小光谱变化的敏感性提升边界质量。标签创新设计基于类比例的软标签合理监督混合地物超令牌有效缓解数据不平衡。实验充分证明了 DSTC 在多个数据集上的优越性尤其是在大规模、高分辨率 WHU-OHS 数据集上显著超越现有方法同时保持了较高的推理速度。该工作为高光谱图像分类提供了一种新的“预聚类-后分类”范式具有很强的实用价值。下一篇DTSC代码复现