【多模态大模型——跨越感知与认知的鸿沟】第2章视觉感知层：编码器架构与表征工程

张

张建站

2026/7/16 20:08:42

10分钟阅读

目录2.1 视觉编码器的演进与选择2.1.1 从CNN到ViT的视觉表征革命2.1.2 高分辨率视觉理解技术2.1.3 视觉Token压缩与采样2.2 细粒度视觉感知增强2.2.1 小物体检测的注意力引导2.2.2 视觉幻觉的感知层抑制2.1 视觉编码器的演进与选择2.1.1 从CNN到ViT的视觉表征革命2.1.1.1 CLIP视觉编码器的语义对齐特性CLIP视觉编码器基于ResNet或Vision Transformer架构，通过大规模对比学习预训练建立视觉-语言关联。编码器将输入图像映射至与文本共享的潜在空间，使得视觉特征具备语义判别性。对比学习目标函数最大化匹配图像-文本对的余弦相似度，同时最小化非匹配对的相似度。视觉编码器的输出表征不仅包含对象类别信息，还编码了属性、关系和场景上下文等多维语义。这种预训练方式赋予编码器强大的零样本迁移能力，无需领域特定微

周红伟：OpenClaw + Claude Code：2 种模式 + 4 层架构，让 AI 开发助手持续跑起来

OpenClaw Claude Code：2 种模式 4 层架构图 1：OpenClaw Claude Code 核心架构概览你有没有遇到过这样的情况：用 Claude Code 写代码，聊着聊着上下文就爆了；运行 /clear 清空后，它又忘了项目背景&#xf…...

2026/5/25 4:42:47 阅读更多 →

2026年液冷规模化元年：全球科技巨头整体转向液冷

作为全球液冷技术规模化落地的核心见证者，2026年已成为行业公认的液冷元年。在谷歌、微软、Meta等科技巨头全部转向液冷的浪潮下，深圳市汉和网通新能源科技有限公司（以下简称“汉和网通”）凭借扎实的技术积淀与成熟的解决方案&…...

2026/5/25 4:40:13 阅读更多 →

从混乱到智能：一家精品酒店如何通过客控系统升级实现降本增效

面对激烈的市场竞争与持续攀升的能耗成本，酒店管理者选择客控系统时，品牌与技术路线的决策直接关系到运营成败。本文将通过一个真实案例，拆解一家面临典型困境的精品酒店如何通过精准的客控系统选型与实施，实现运营效率与宾客体验…...

2026/5/25 4:36:56 阅读更多 →

3步解锁音乐自由：ncmdumpGUI终极NCM文件解密转换指南

3步解锁音乐自由：ncmdumpGUI终极NCM文件解密转换指南【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换，Windows图形界面版本项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾在网易云音乐下载了心爱的歌曲&#…...

2026/7/16 18:01:48 阅读更多 →

Play Integrity Fix终极指南：解决Android设备验证失败的完整方案

Play Integrity Fix终极指南：解决Android设备验证失败的完整方案【免费下载链接】PlayIntegrityFix Fix Play Integrity (and SafetyNet) verdicts. 项目地址: https://gitcode.com/GitHub_Trending/pl/PlayIntegrityFix PlayIntegrityFix是一款专为Root设备…...

2026/7/16 18:01:50 阅读更多 →

Codex CLI 接入 GPT 模型指南

Codex CLI 是一个用于与 GitHub Copilot 进行交互的命令行工具，目前并没有 GPT-5.6 这个模型。GitHub Copilot 使用的是基于 OpenAI 的 GPT 模型，但具体版本信息并未公开。如果你有其他关于 Codex CLI 或 GitHub Copilot 的问题，欢迎继续提问…...

2026/7/16 18:01:52 阅读更多 →

SingleFile：让网页永久保存的终极解决方案，告别链接失效的烦恼

SingleFile：让网页永久保存的终极解决方案，告别链接失效的烦恼【免费下载链接】SingleFile Web Extension for saving a faithful copy of a complete web page in a single HTML file 项目地址: https://gitcode.com/gh_mirrors/si/SingleFile …...

2026/7/16 18:01:54 阅读更多 →