目录2.1 视觉编码器的演进与选择2.1.1 从CNN到ViT的视觉表征革命2.1.2 高分辨率视觉理解技术2.1.3 视觉Token压缩与采样2.2 细粒度视觉感知增强2.2.1 小物体检测的注意力引导2.2.2 视觉幻觉的感知层抑制2.1 视觉编码器的演进与选择2.1.1 从CNN到ViT的视觉表征革命2.1.1.1 CLIP视觉编码器的语义对齐特性CLIP视觉编码器基于ResNet或Vision Transformer架构,通过大规模对比学习预训练建立视觉-语言关联。编码器将输入图像映射至与文本共享的潜在空间,使得视觉特征具备语义判别性。对比学习目标函数最大化匹配图像-文本对的余弦相似度,同时最小化非匹配对的相似度。视觉编码器的输出表征不仅包含对象类别信息,还编码了属性、关系和场景上下文等多维语义。这种预训练方式赋予编码器强大的零样本迁移能力,无需领域特定微