YOLOv11 改进 - SPPF模块 AIFI基于注意力的尺度内特征交互：替代SPPF构建高效混合编码器，提升模型综合效能

张

张建站

2026/6/25 14:26:03

10分钟阅读

YOLOv11 改进 - SPPF模块 AIFI基于注意力的尺度内特征交互：替代SPPF构建高效混合编码器，提升模型综合效能

前言本文介绍了实时检测TransformerRT-DETR及其核心AIFI模块在YOLOv11中的结合应用。RT-DETR旨在解决YOLO速度和准确性受NMS负面影响、DETRs计算成本高的问题通过设计高效混合编码器和解码器层数调整来提升性能。AIFI作为Transformer编码器层通过构建2D正弦 - 余弦位置嵌入处理多尺度特征。我们将AIFI集成进YOLOv11实验表明改进后的模型在COCO数据集上的速度和准确性超越了先进的YOLO模型展现出良好的性能表现。文章目录 YOLOv11改进大全卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总专栏链接: YOLOv11改进专栏介绍摘要YOLO系列因其在速度和准确性之间的合理权衡成为了实时目标检测中最受欢迎的框架。然而我们观察到YOLO的速度和准确性受NMS非极大值抑制的负面影响。最近基于Transformer的端到端检测器DETRs提供了一种消除NMS的替代方案但其高计算成本限制了其实用性并阻碍了其完全利用排除NMS的优势。在本文中我们提出了实时检测TransformerRT-DETR据我们所知这是第一个解决上述困境的实时端到端目标检测器。我们借鉴先进的DETR分两步构建RT-DETR首先我们专注于在提高速度的同时保持准确性然后在保持速度的同时提高准确性。具体而言我们设计了一种高效的混合编码器通过解耦内尺度交互和跨尺度融合来快速处理多尺度特征从而提高速度。然后我们提出了不确定性最小化查询选择以向解码器提供高质量的初始查询从而提高准确性。此外RT-DETR通过调整解码器层数支持灵活的速度调节以适应各种场景而无需重新训练。我们的RT-DETR-R50/R101在COCO数据集上分别达到了53.1%和54.3%的AP并在T4 GPU上达到了108 FPS和74 FPS超越了之前先进的YOLOs在速度和准确性上的表现。此外RT-DETR-R50在准确性上比DINO-R50高2.2% AP且FPS高约21倍。经过Objects365的预训练后RT-DETR-R50/R101分别达到了55.3%和56.2%的AP。项目页面https://zhao-yian.github.io/RTDETR。文章链接论文地址论文地址代码地址代码地址基本原理核心代码class AIFI(TransformerEncoderLayer): Defines the AIFI transformer layer. def __init__(self, c1, cm2048, num_heads8, dropout0, actnn.GELU(), normalize_beforeFalse): Initialize the AIFI instance with specified parameters. super().__init__(c1, cm, num_heads, dropout, act, normalize_before) def forward(self, x): Forward pass for the AIFI transformer layer. c, h, w x.shape[1:] pos_embed self.build_2d_sincos_position_embedding(w, h, c) # Flatten [B, C, H, W] to [B, HxW, C] x super().forward(x.flatten(2).permute(0, 2, 1), pospos_embed.to(devicex.device, dtypex.dtype)) return x.permute(0, 2, 1).view([-1, c, h, w]).contiguous() staticmethod def build_2d_sincos_position_embedding(w, h, embed_dim256, temperature10000.0): Builds 2D sine-cosine position embedding. grid_w torch.arange(int(w), dtypetorch.float32) grid_h torch.arange(int(h), dtypetorch.float32) grid_w, grid_h torch.meshgrid(grid_w, grid_h, indexingij) assert embed_dim % 4 0, Embed dimension must be divisible by 4 for 2D sin-cos position embedding pos_dim embed_dim // 4 omega torch.arange(pos_dim, dtypetorch.float32) / pos_dim omega 1.0 / (temperature**omega) out_w grid_w.flatten()[..., None] omega[None] out_h grid_h.flatten()[..., None] omega[None] return torch.cat([torch.sin(out_w), torch.cos(out_w), torch.sin(out_h), torch.cos(out_h)], 1)[None]实验脚本import warnings warnings.filterwarnings(ignore) from ultralytics import YOLO if __name__ __main__: # 修改为自己的配置文件地址 model YOLO(/root/ultralytics-main/ultralytics/cfg/models/11/yolov11-AIFI.yaml) # 修改为自己的数据集地址 model.train(data/root/ultralytics-main/ultralytics/cfg/datasets/coco8.yaml, cacheFalse, imgsz640, epochs10, single_clsFalse, # 是否是单类别检测 batch8, close_mosaic10, workers0, optimizerSGD, ampTrue, projectruns/train, nameAIFI, )结果

Python自动化脚本：3分钟批量创建Gmail账号的智能解决方案

Python自动化脚本：3分钟批量创建Gmail账号的智能解决方案【免费下载链接】gmail-generator ✉️ Python script that generates a new Gmail account with random credentials 项目地址: https://gitcode.com/gh_mirrors/gm/gmail-generator 你是否曾经需要…...

2026/6/25 14:24:48 阅读更多 →

DDD-029：遗留系统重构为 DDD 架构

DDD-029：遗留系统重构为 DDD 架构本章导读在实际工作中，我们经常面临维护和改进遗留系统的挑战。传统的贫血模型系统往往存在业务逻辑分散、代码难以维护、扩展困难等问题。本章将系统性地探讨如何将遗留系统渐进式地重构为 DDD 架构，重点介绍绞杀者模式、领域模型提取、…...

2026/6/25 14:22:31 阅读更多 →

大模型API接入前的5道必答题：计费、认证、并发、审计、安全

企业做大模型接入，最容易低估的不是模型本身，而是“Token/词元服务商”这一层。很多团队一开始只盯着模型效果，等到正式上线才发现：认证链路不稳定、计费规则看不懂、并发一上来就限流、日志审计做不全，最后不是成本失…...

2026/6/25 14:20:57 阅读更多 →

3步解锁Adobe全家桶：Adobe-GenP 3.0智能破解工具完全指南

3步解锁Adobe全家桶：Adobe-GenP 3.0智能破解工具完全指南【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP Adobe-GenP 3.0是一款功能强大的Adobe Creativ…...

2026/6/25 5:27:05 阅读更多 →

暗黑2存档编辑器实战宝典：网页版D2/D2R角色修改工具完全解析

暗黑2存档编辑器实战宝典：网页版D2/D2R角色修改工具完全解析【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 还在为暗黑破坏神2的角色练级而烦恼吗？想测试不同的build组合却不想重复枯燥的升级过程&#…...

2026/6/25 5:27:06 阅读更多 →

基于MC56F8257 DSC的BLDC电机六步换相与速度闭环控制实战

1. 项目概述与核心价值如果你正在寻找一个既能深入理解三相无刷直流电机（BLDC）控制原理，又能快速上手实现一个稳定、低功耗驱动方案的实战项目，那么基于飞思卡尔MC56F8257 DSC的这套方案，绝对是一个教科书级的起点。我…...

2026/6/25 5:27:08 阅读更多 →

如何用AI在10分钟内完成蛋白质结构预测？AlphaFold3-PyTorch深度解析

如何用AI在10分钟内完成蛋白质结构预测？AlphaFold3-PyTorch深度解析【免费下载链接】alphafold3-pytorch Implementation of Alphafold 3 from Google Deepmind in Pytorch 项目地址: https://gitcode.com/gh_mirrors/al/alphafold3-pytorch 蛋白质结构预测…...

2026/6/25 5:27:08 阅读更多 →