视觉token生成革命：ViT切块 vs VQ-VAE全局编码

张

张建站

2026/7/4 15:20:59

10分钟阅读

两种视觉token生成方式的核心区别：ViT切块 vs VQ-VAE全图编码目录两种视觉token生成方式的核心区别：ViT切块 vs VQ-VAE全图编码一、先明确两个概念（纠正常见误解）二、分步实现：两种方法的完整流程方法1：ViT切块生成256个token（1024×1024图像）方法2：VQ-VAE全图编码生成256个token（1024×1024图像）三、核心差异：本质上是两种完全不同的信息处理范式四、同一例子对比："一只红色的猫坐在绿色的垫子上"图像布局ViT切块方法的token分布VQ-VAE全图编码方法的token分布五、技术依据：为什么VQ-VAE全面取代了ViT切块？VQ-VAE全称是Vector Quantized Variational Autoencoder，中文译为向量量化变分自编码器。它是一种能将图像、音频等连续高维数据压缩为离散整数token序列的神经网络，核心是通过预训练的"码本"实现连续特征到离散符号的映射。它是当前原生多模态大模型的标准视觉分词器，天然支持图像的编码理解与解码生成双向能力。一、先明确两个概念（纠正常见误解）名称准确定义代表时代切块生成256个tokenViT Patch化方法：将图像物理切割成256个不重叠的正方形小块，每个小块独立生成一个token2023-2024年拼接式VLM（LLaVA、Qwen-VL）直接生成256个tokenVQ-VAE全图编码方法：对整个图像进行端到端的卷积编码和向量量化，最终输出256个离散token2025-2026年原生多模态模型（GPT-4o、Gemini 3、Emu3）

2026届毕业生推荐的五大AI科研平台实际效果

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek AI写作工具是智能辅助软件，它基于自然语言处理跟深度学习技术，能依据…...

2026/7/4 15:16:05 阅读更多 →

Rust的闭包回调接口

Rust的闭包回调接口：灵活与安全的完美结合在现代编程语言中，闭包回调是一种强大的工具，能够以灵活的方式处理异步逻辑和事件驱动编程。Rust作为一门注重安全与性能的系统级语言，其闭包回调接口不仅提供了高度的灵活性&#xff0…...

2026/5/17 7:28:38 阅读更多 →

AI原生敏捷开发落地指南（Gartner 2024验证：交付周期压缩63%的关键转折点）

第一章：AI原生敏捷开发的范式跃迁 2026奇点智能技术大会(https://ml-summit.org) 传统敏捷开发以人为核心、迭代交付为特征，而AI原生敏捷开发则将大模型能力深度嵌入需求分析、测试生成、代码补全与运维反馈闭环中，形成“感知—推理—执行—…...

2026/5/17 8:19:00 阅读更多 →

棋牌室茶楼收银别只看价格：京东收银K6收银机为什么值得小店老板优先了解

棋牌室茶楼收银别只看价格：京东收银K6收银机为什么值得小店老板优先了解棋牌室、茶楼老板选收银机，常见问题不是“能不能收钱”，而是开台计时别算错、会员储值别记混、团购核销别卡住、茶水小食别漏单，营业结束后还能把账看清楚。…...

2026/7/4 8:14:39 阅读更多 →

Claude 桌面版深度使用技巧指南

一、文件分析的高阶技巧1. 截图与设计稿的精确提问法不要只丢一张图说“帮我看看”。带指令地上传效果倍增：像素级评审：“以 iOS 设计规范为标准，检查这张截图的间距、字号和颜色一致性，标出具体坐标。”信息提取：“把…...

2026/7/4 9:57:02 阅读更多 →

【Claude】Request timed out 请求超时报错已解决

【Claude】Request timed out 请求超时报错已解决关键词：Claude Code、Request timed out、API_TIMEOUT_MS、请求超时、网络代理、自动重试、Waiting for API response一、问题现象：一行干巴巴的超时 Claude Code 干着干着，终端冒出极简的一行…...

2026/7/3 4:13:55 阅读更多 →