点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐转载自机器之心近年来Chain-of-ThoughtCoT推理已经成为提升大语言模型和多模态大语言模型复杂问题求解能力的重要技术路径。然而这种 “显式思考” 也带来了一个越来越突出的效率问题模型往往需要生成大量的中间推理文本导致推理 token 数显著增加从而带来更高的推理延迟、显存占用和计算成本。尤其在多模态大模型MLLMs中输入通常包含图像、问题和复杂上下文模型为了完成推理往往需要先描述图像内容、总结关键信息、分析视觉线索再逐步推导最终答案。这个过程虽然接近人类的 “逐步思考”但对于大模型推理系统而言每一个额外生成的 token 都意味着一次额外的自回归解码开销。因此一个最关键的问题就是大模型的 “思考” 是否一定要以人类可读的长文本形式显式得生成出来近期来自浙江大学、Adobe Research、杜克大学等机构的研究团队提出了一种面向多模态大模型的高效推理框架 ——Heima。该方法将冗长的文本 CoT 压缩为少量抽象的 “thinking tokens”让模型在隐空间中完成高效推理在大幅减少生成 token 数量的同时尽可能保留 CoT 推理带来的能力提升。更进一步作者还构建了基于纯语言模型LLMs的解释器实验对这些抽象的 “thinking tokens” 进行解码与重构验证了隐藏空间中确实存在可被还原和分析的推理过程。该论文题为 Efficient Reasoning with Hidden Thinking已被 ICML 2026 接收。论文标题Efficient Reasoning with Hidden Thinking方法名称Heima会议ICML 2026代码https://github.com/shawnricecake/Heima本文第一作者沈轩现为浙江大学 “百人计划” 研究员研究方向为高效人工智能主要聚焦于大模型在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上的高效部署与推理加速以及面向 AI 计算的计算机体系结构与系统优化设计。背景挑战CoT 推理的核心思想是让模型在回答问题前先生成中间的推理过程。例如对于一道多模态问题模型可能会依次生成1. 对输入问题的总结2. 对图像内容的描述3. 对视觉线索和问题之间关系的分析4. 最终答案。这种方式能够增强模型的可解释性也能提升模型处理复杂任务的能力。然而其代价也十分明显模型需要生成大量额外的文本 token导致推理成本变高。这些中间的 CoT 文本虽然对人类可读但其中也存在大量冗余信息。现有一些方法尝试在文本模型中进行 latent reasoning 或 CoT 压缩但它们通常局限于小规模语言模型、文本任务或特定数据集。相比之下多模态大模型需要同时处理视觉输入和语言输入推理过程也更复杂因此如何在 MLLM 中压缩 CoT同时不破坏推理能力仍然是一个开放问题。论文也指出已有 latent reasoning 方法在小模型或文本任务上已有探索但将 CoT 压缩扩展到大规模多模态大模型仍存在明显空白。核心问题本文探索的核心问题是能否让多模态大模型不再生成冗长的显式 CoT 文本而是用少量隐式 thinking tokens 来完成推理这背后其实有一个很有意思的判断人类写出来的推理文本未必是模型内部 “思考” 的唯一形式。对于模型而言中间推理过程也许可以被压缩为更抽象、更紧凑的隐空间表示。只要这些表示能够保留对最终答案有用的信息模型就不一定需要完整输出所有的推理文本。因此Heima 的目标不是简单地 “删除” CoT而是尝试把原本冗长的 CoT 推理过程压缩进少量特殊 token 中让模型仍然具备逐步推理能力但避免在推理时生成大量自然语言中间步骤。这就类似于把 “写满一整页的草稿纸” 压缩成几个模型内部能理解的思考符号虽然人类可能看不懂这些符号但模型可以用它们进行推理并给出答案。方法概览为了解决上述问题本文提出了 Heima一个面向多模态大模型的 CoT 压缩与隐式推理框架。论文摘要中将 Heima 描述为一种有效的 CoT compression framework能够把长 CoT 压缩成少量抽象的 thinking tokens同时保留关键推理信息并去除冗余。整体来看Heima 包含三个关键设计1. 用 thinking token 替代冗长 CoT传统 CoT 方法会让模型显式生成完整的中间推理文本。例如针对一张汽车图片以及问题 “这辆车属于哪个品牌有哪些视觉特征可以支持这一判断”模型可能会先逐步描述图像内容再基于视觉线索进行推断这张图中有一辆黑色汽车。车头有一个特殊的标志。这个标志对应 BMW。因此答案是 BMW。而 Heima 不再要求模型完整输出这些文字推理而是将不同阶段的推理过程压缩为特殊的 thinking tokens例如Thinking_of_Summary Thinking_of_Caption Thinking_of_Reasoning 结论这张图片展示了一辆黑色 BMW M3 在路上驰骋。这些 token 本身很短但其 hidden states 中编码了对应阶段的推理信息。也就是说模型生成的不是完整推理文本而是更紧凑的隐式思考表示。论文图 1 展示了一个汽车品牌识别的示例Heima 首先基于输入图像和问题生成抽象的 thinking tokens随后再通过 interpreter 将这些 thinking tokens 重新解码为人类可读的推理过程例如对汽车外观、车标特征以及品牌归属进行分析。值得注意的是这里的 interpreter 仅基于传统大语言模型构建并不直接接收原始图像输入却仍然能够从纯文本问题与 thinking token 表示中重建出与视觉内容相关的推理信息。这说明 thinking tokens 中确实编码了关键的视觉推理线索也从实验层面验证了模型隐空间中存在可被解析的推理过程。2. 渐进式蒸馏逐步把 CoT 压缩进 token直接把完整 CoT 一次性压缩成少量 token 是很困难的因为模型可能会丢失大量推理信息。为此Heima 采用了 progressive distillation 的训练策略。具体来说模型并不是一次性把所有推理阶段都替换成 thinking tokens而是逐阶段进行压缩。这种渐进式训练可以让模型更平滑地从 “显式文本推理” 过渡到 “隐式抽象 token 推理”避免一次性压缩带来的性能下降。论文明确提出Heima 会逐步将每个 CoT stage 蒸馏为 thinking token而不是一次性完成所有阶段的蒸馏。3. Interpreter把隐式思考重新解释成人类可读文本隐式推理虽然高效但也带来一个问题如果 thinking tokens 不是自然语言人类如何知道模型到底有没有在思考或者说到底想了什么为此本文设计了 adaptive interpreter。它的作用是把 thinking tokens 映射回可变长度的文本序列从而重建模型的推理过程并进一步分析压缩引入的信息差距。这一步非常关键因为它让 Heima 不只是一个 “把推理藏起来” 的加速方法而是提供了一种分析和验证隐式推理质量的机制。如果 interpreter 能够在没有视觉输入的情况下从 thinking tokens 中重建出与原始 CoT 接近的推理过程就说明这些 tokens 确实保留了足够多的推理信息。换句话说Heima 一方面让模型推理更快另一方面又通过 interpreter 尽可能保留可解释性。理论分析除了方法设计本文还从信息论角度分析和直觉解释了 CoT 压缩带来的信息差距。核心思想是将文本 CoT 压缩为 thinking tokens 必然会引入一定的信息损失但只要这些 tokens 与原始 CoT 之间保留了非平凡互信息模型的推理能力就仍然可以被保留。从信息论角度看thinking tokens 可以看作是原始 CoT 的压缩表示。记原始 CoT 为压缩后的 thinking tokens 为 T 则 Tf (X,C) 也就是 thinking tokens 依赖于输入的问题 X 和原始 CoT C。因此由数据处理不等式可知在给定输入 X 后 T 中关于答案 Y 的信息不会超过原始。这说明压缩不可能凭空创造新的推理信息只能保留原始 CoT 中已有的信息。但这并不意味着压缩一定会破坏推理能力。只要thinking tokens 就仍然保留了对最终答案有用的任务相关信息。压缩真正损失的是。 这个条件信息量表示已经知道输入和 thinking tokens 后原始 CoT 还能额外提供多少关于答案的信息。如果这个 gap 很小说明 thinking tokens 已经捕捉到了原始 CoT 中最关键的推理信息。这也是我们后续设计 interpreter 来量化这个损失信息量的动机。实验结果本文在多个多模态推理 benchmark 上验证了 Heima 的效果。Heima 不仅显著减少了推理过程中生成的 token 数量且在多个 benchmark 上Heima 能够在大幅减少 token 的同时保留大部分 CoT 推理能力。这意味着 Heima 能够将原本冗长的 CoT 推理压缩到非常短的 thinking token 序列中从而显著降低自回归解码成本并且压缩后的 thinking tokens 仍能保留处理视觉幻觉和语言幻觉问题所需的关键信息。另外为了进一步验证 thinking tokens 中是否真的保留了推理信息本文训练了对应的 interpreter并评估重建文本与原始 CoT 的接近程度。论文结果显示interpreter 能够从压缩后的 thinking tokens 中重建出连贯的 reasoning progress。尤其在 summary、caption 和 reasoning 三个阶段中interpreter 都能恢复出一定程度的人类可读推理内容。这说明 Heima 并不是简单地把推理过程 “黑箱化”而是通过 interpreter 提供了一种观察隐式思考内容的窗口。总结与展望Heima 提供了一种新的多模态大模型高效推理思路与其让模型显式生成冗长的自然语言 CoT不如将中间推理过程压缩进少量 thinking tokens 中让模型在隐空间中完成更高效的 “隐藏思考”。相比传统 CoT 方法Heima 的优势主要体现在三个方面第一推理更高效。通过大幅减少生成 token 数Heima 直接降低了自回归解码开销。第二能力保持较好。在多个多模态推理 benchmark 上Heima 能够在显著压缩 token 的同时保持接近甚至超过原始 CoT 的性能。第三仍具备可解释性分析机制。通过 adaptive interpreterHeima 可以将 hidden thinking tokens 重新映射为文本推理过程从而分析压缩后的隐式表示是否保留了足够的推理信息。从更长远的角度看Heima 探索了一个非常重要的问题大模型的推理过程是否必须以人类语言显式展开如果模型可以用更紧凑的隐空间表示完成复杂推理那么未来的大模型推理或许可以在 “可解释性” 和 “效率” 之间找到新的平衡点。这一工作不仅为多模态大模型的 CoT 压缩提供了新方法也为 latent reasoning、efficient reasoning 和 scalable multimodal reasoning systems 提供了新的研究方向。随着多模态模型被部署到更多真实场景中如何减少推理 token、降低延迟和提升系统吞吐将成为大模型走向实际应用的重要问题。Heima 的提出为这一方向提供了一个简洁而有效的解决方案。本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看