1篇1章7节:认识大语言模型的推理过程,从中间步骤到自我进化
在人工智能领域大语言模型给我们带来了前所未有的体验它们不仅能给出最终答案还能生成条理清晰、逻辑严谨的中间推理步骤。这种现象让人仿佛面对的不再是一堆冰冷的代码而是一个具备思考能力的智能体。然而当问题稍作变化模型有时又会输出错误或荒谬的答案揭示了其推理能力的复杂性和局限性。谷歌 DeepMind 的丹尼·周通过系统研究提出了工程可操作的推理定义模型生成从输入到输出的中间步骤即为其“推理行为”。这一定义不仅将抽象概念量化也为推动大模型训练和应用提供了清晰方向使我们能够理解和优化模型的潜在逻辑能力。对于经常接触大语言模型的人来说这样的经历并不陌生当你向 AI 提出一个复杂问题时它不仅能给出最终答案还会附上条理清晰、逻辑严谨的推理步骤。这一瞬间你会仿佛面对的不再是一堆冰冷的代码而是一个真正具备推理能力的智能体。然而当问题稍作变化或者提出一个类似但不完全相同的任务时同样的模型可能会给出完全错误、甚至荒谬的答案让人不禁怀疑它不过是一个更高级的模式匹配系统。这种明显的反差恰恰反映了当前人工智能领域最核心的困惑之一大语言模型的推理能力究竟是源自真正的智能涌现还是仅仅基于海量文本数据训练出来的复杂统计规律它是在执行逻辑推演还是在模仿曾经在互联网上见过的解题步骤学术界和工业界围绕这个问题讨论不断但与其陷入哲学式的争辩更迫切需要弄清楚这种所谓的“推理能力”是如何产生的以及如何可靠地加以利用。谷歌 DeepMind 的丹尼·周Denny Zhou。作为该领域的领军科学家之一丹尼·周不仅创立了谷歌大脑中专门研究模型推理能力的团队还提出了思维链提示Chain-of-Thought、自洽性Self-Consistency解码等关键技术这些方法奠定了大语言模型推理研究的核心基础。丹尼·周的贡献不仅限于技术实现他还在概念层面为整个领域提供了清晰的定义。针对“模型是否能够推理”的问题他提出了工程可操作的标准推理是指从模型输入问题到输出答案之间生成的中间步骤。这一定义将原本抽象的哲学讨论转化为可量化、可优化的工程目标使得模型的推理能力可以被系统性地训练和评估。他通过一系列巧妙设计的实验证明了即便是相对简单的 Transformer 模型只要生成充分的中间步骤也可以解决复杂逻辑问题。这一洞察彻底改变了大模型训练和使用的范式——从单纯追求答案转向关注推理过程本身。丹尼·周在斯坦福大学的一场演讲中他系统地梳理了从成立推理团队到今天大语言模型推理技术的演进过程。这场讲座不仅揭示了 AI 推理能力的本质也对过去几年相关技术进行了全面去魅帮助研究者和从业者理解大模型是如何一步步“学会思考”的。接着我们从最基础的概念出发逐层递进带大家彻底搞懂大语言模型“思考”的秘密。一、什么是推理在深入探讨之前有必要先弄明白当我们谈论大语言模型 的“推理”时到底指的是什么。丹尼·周给出了一个清晰且可操作的定义他不参与“模型是否具备真正推理能力”的哲学争论——因为没有明确标准的讨论往往只是在自说自话。在他领导的团队中推理有具体含义它指的是从输入问题到输出答案之间模型生成的所有中间步骤。这个定义的重要性在于它把原本抽象、模糊的概念转化为工程上可实现、可度量、可优化的目标使得研究者可以用实验和指标去衡量和提升模型的“思考”过程而不再只是凭直觉判断模型是否智能。为了让这个定义更直观丹尼·周设计了一个简单的实验——“末尾字母拼接”任务。例如问模型“请把 Artificial 和 intelligence 的末尾字母拼接起来。”如果直接要求模型给出答案它可能凭语言统计习惯猜出“le”这只是基于概率的字符预测而非真正的多步骤逻辑操作。然而如果引导模型展示中间步骤它会生成类似这样的输出“artificial 的最后一个字母是 lintelligence 的最后一个字母是 e拼接后得到 le。”在丹尼的定义里这样逐步拆解任务、生成明确中间步骤的过程就是模型的推理行为——它把复杂问题分解为简单子任务最终得出答案。这个实验生动地体现了他对“推理”的工程化理解让模型的思路可观察、可验证。值得注意的是这种行为虽然看上去像人类“先思考再作答”但丹尼·周提醒大家大模型并不是人类它们仍然是基于概率的语言生成系统。拟人化的表述有助于理解但容易让人误以为模型具备人类的认知能力。更有意思的是他最初尝试的是“首字母拼接”任务当时所有模型几乎都能正确完成——因为互联网上存在大量缩写和首字母词模型在预训练中已经习得了这种模式。然而将任务换成“末尾字母拼接”模型普遍失败。这一现象说明模型并未真正理解“拼接”这一操作而只是记住了常见的模式。这个实验不仅验证了他的推理定义也揭示了大模型在面对新颖任务时的局限性为后续思维链提示、自洽性等方法的提出奠定了基础。二、为什么需要中间步骤为什么要强调生成中间步骤难道只是为了让模型看起来像人在“思考”当然不是。背后有坚实的理论支撑。丹尼·周及其团队与斯坦福大学藤上华团队的合作研究表明对于任何可用大小为 t 的布尔电路表示的问题一个常数规模的 Transformer 模型只要允许它生成 O(t) 长度的中间步骤就能够成功解决该问题。这意味着模型不需要无限扩展其网络深度也能处理高复杂度的计算任务只要它能通过逐步推理展开思路。为了更直观地理解可以把布尔电路想象成执行逻辑运算的最基本单位。实际上任何复杂计算任务——例如运行大型软件、进行多层逻辑分析——本质上都可以分解为巨大的布尔电路而 t 代表问题的计算复杂度。理论告诉我们即便是规模不大的 Transformer 模型也具备潜力只要允许生成足够长的中间步骤就能够处理这些复杂任务。这就像把庞大的计算工作拆成一个个小环节让模型逐步完成而不是一次性吞下整个问题。反过来看如果强迫模型直接输出最终答案相当于要求模型在有限深度的网络中直接模拟整个复杂计算过程。结果要么需要极其庞大的网络结构要么根本无法完成任务。因此鼓励模型生成中间步骤绝非可有可无而是从计算原理上为解决复杂问题打开了大门。这一理念彻底改变了我们对大模型训练和使用的思路不再只是追求快速得到答案而是注重过程让模型一步步展开“思考”从而真正释放其潜在能力。三、如何让模型生成推理过程既然推理过程如此关键那么我们该如何引导模型生成它呢丹尼·周提出了一个颠覆传统认知的观点许多人以为预训练模型本身不具备推理能力必须依赖思维链提示或者专门微调才能“教会”它推理。但他指出这种理解是错误的——模型在预训练阶段已经积累了足够的逻辑能力只需要调整解码方式就能让它展现出推理过程。也就是说推理并非外部赋予而是模型本身的潜在能力只是默认的生成方式没能触发它。他用一个简单的数学题作例子来说明“我有 3 个苹果爸爸比我多 2 个我们一共有多少个”如果直接把这个问题输入早期的预训练模型如 GPT-3 或 LLaMA并采用默认的贪婪解码——每次选择概率最高的词——模型可能迅速输出“5 个”因为它看到“3 个”和“多 2 个”便直接联想到 5这其实只是模型的直觉反应而非完整推理。但如果深入观察模型的输出概率分布会发现除了“5 个”外还有其他高概率候选路径这些路径可能包含完整的推理链例如“我有 3 个苹果爸爸比我多 2 个所以他有 5 个358一共 8 个”或者“你有 3 个爸爸有 325 个一共 358 个”。这些都是模型内部已有的推理潜力只是默认解码未被触发。这个发现引出了思维链解码的概念推理能力不是通过外部训练注入的而是在模型理解海量文本中逻辑关系后自然涌现的。关键在于引导模型把已有的知识正确表达出来而非教它“如何思考”。换句话说我们不必从零教模型推理只需调整生成策略让模型逐步输出中间步骤把复杂任务拆解成简单环节从而正确得出答案。这一理念彻底改变了大模型的使用方式从以往单纯追求答案转向重视生成过程让模型展示潜在的逻辑链条而非仅仅输出最终结果。在生成了大量候选输出后如何判断哪一个最可靠直觉上有人会以回答长度作为参考——因为带完整思考过程的回答通常更长——但丹尼·周和他的团队发现判断优劣更有效的指标是答案置信度。所谓置信度即模型在生成最终答案时所赋予的概率。回到苹果问题如果模型的候选输出中最终答案是“8”它的内部概率可能高达 98%对于拥有庞大词汇表的模型来说这意味着强烈信号就像人经过深思熟虑后对结论非常笃定一样。这一发现说明带有正确思维链的回答不仅逻辑完整而且在模型内部本身就被“看作”高度可靠。基于这个观察思维链解码的核心策略可以总结为两步第一避免仅依赖贪婪解码而是让模型生成更多可能候选第二从这些候选中选出最终答案置信度最高的一个。通过这种方式复杂问题的解答不再依赖偶然的直觉输出而是系统性地挖掘模型内在逻辑潜力。简而言之这是一种让模型内部“自信度”成为判断标准的方法从概率角度锁定最优路径而非仅凭人类直观判断长度或字面内容。然而上述方法对于普通用户而言操作门槛较高需要编写专门代码来访问候选概率。为了解决这一问题研究者们提出了一系列提示工程技术以自然语言调整模型的输出概率分布使带有完整推理过程的答案自动排在前面。其中最具代表性的是思维链提示Chain-of-Thought Prompting在正式提问前先向模型展示一两个示例每个示例包含“问题 详细思考过程 最终答案”。例如给模型看一个问题“农民有 5 个香蕉买了 6 个吃了 2 个还剩几个”示例答案详细展示计算步骤“农民开始有 5 个买了 6 个后总共 11 个吃掉 2 个剩下 9 个答案是 9。”然后再提苹果问题模型会模仿示例风格自然生成中间步骤并得出正确答案。从概率视角看这种方法显著提升了模型生成类似思考步骤句式的可能性把隐藏的正确推理路径推到前列。虽然思维链提示效果明显但需要手动准备示例操作复杂。于是出现了更简单、几乎无需示例的“零样本”提示技术——即让模型在回答前自动“一步一步思考”let’s think step by step。丹尼·周坦言他最初看到这篇论文时几乎不敢相信但在谷歌内部对 PaLM 模型测试后发现模型真的会自动输出完整解题步骤。虽然这种零样本方法的准确率通常略低于少样本思维链但它展示了一个重要事实我们可以通过通用自然语言提示来激发模型潜在的推理能力无需复杂微调或手工编写示例。这一发现不仅降低了普通用户使用大模型推理的门槛也标志着从工程实践到理论理解的一次重要突破让复杂问题的解答更加可控和透明。四、从外部提示到内在能力虽然通过提示让模型“一步步思考”可以提高推理能力但显然在长期使用中依赖外部提示并不理想。我们希望模型的推理能力能成为其固有特质而不是每次都需要人为引导。这就引出了微调阶段的探索即通过训练让模型自身掌握推理能力。最早期的方法是监督微调Supervised Fine-Tuning, SFT思路直接收集大量“问题 → 思考过程 → 答案”的高质量示例让模型学习如何生成完整的解题步骤。在机器学习框架下这相当于最大化自然估计Maximum Likelihood Estimation, MLE让模型输出尽可能接近人类专家的步骤序列。DeepMind 早在 2017 年就尝试用数学应用题和人工解题步骤训练序列模型2021 年OpenAI 建立了 GSM 8K 数据集微调 GPT-3 来生成更标准的步骤解答。尽管 SFT 模型在与训练数据相似的问题上表现良好但丹尼・周团队发现这种方法的泛化能力极其有限。2021 年夏天的实验显示一旦遇到新类型问题模型往往表现不佳扩充训练数据规模也无法根本解决问题。问题的根源其实在于人类提供的数据人类的思维千差万别书写的步骤存在跳跃和不一致所谓“标准答案”未必是模型最容易学习和泛化的路径。因此仅仅依靠监督微调模型无法真正将推理能力内化为自身固有特质。丹尼・周得出的结论是再多数据也无济于事如果范式本身存在局限问题就不会消失。为此团队提出了“自我提升”Self-Improve 或 STaR方法实现模型自我生成训练数据从而形成闭环迭代。核心流程是首先选取一批问题让已经较强的模型自行生成多样化的解题步骤而非依赖人工示例其次通过验证器筛选这些步骤保留过程多样但结果正确的解答最后用经过验证的数据微调模型自身。经过迭代模型不仅能生成更高质量、更复杂的步骤也能逐步提高自身的推理能力。这种方式打破了人类数据的限制让模型探索出最适合自身的推理路径同时实现稳定的泛化能力。丹尼・周提到2024 年初字节跳动发表的论文《Reasoning with Reinforced Fine-Tuning》是学术界首次系统阐述这一思路的公开文献OpenAI 等机构也可能独立探索了类似方法。为什么机器生成的数据甚至可能优于人类专家根本原因在于优化目标的变化SFT 优化的是“模仿人类步骤”假设人类过程最优但人类思维存在跳跃、不一致且未必易于模型学习和泛化。而新范式关注的是最终答案的正确性用答案正确性作为奖励信号引导模型学习相当于解决一个策略梯度问题——模型不断调整参数提高生成高奖励序列的概率。丹尼・周强调这一过程无需拟人化理解不是“激励模型思考”而是标准机器学习操作定义目标、计算梯度、反向传播。模型在这个框架下会自行探索最适合自身的推理过程可能与人类思维完全不同但却更稳定、可泛化。其中最关键的环节是验证器它能够自动判断答案好坏是整个自我进化微调范式的基石也印证了强化学习先驱 Richard Sutton 在 2001 年提出的洞见——验证是通向智能的核心。五、大模型推理与经典 AI 的本质不同经过自我进化训练大模型展现出的推理能力达到了前所未有的高度其智能表现与传统 AI 有本质区别。回顾经典案例1997 年国际象棋大师卡斯帕罗夫败给 IBM 的深蓝时曾评论“深蓝的智能就像编程让闹钟准时响”意思是它的所谓智慧完全是程序化的产物。深蓝依靠穷举搜索计算未来若干步的所有可能棋局再从中挑选最优策略。这种方法的核心是明确规则和暴力计算典型的经典 AI 特征。它虽然在特定任务上表现出色但依赖于明确的算法和搜索空间无法在缺乏规则的情境中展示灵活推理。相比之下大语言模型的推理方式截然不同它更接近人类的启发式思维而非依赖显式的暴力搜索。模型通过对海量语言数据的训练从中形成潜在的逻辑和模式能够在面对复杂问题时自发生成分步骤、结构化的解决方案。这种能力并不是直接被编程进去的而是在训练过程中自然而然涌现出来的。丹尼・周举了一个数字游戏的例子用 1 到 10 的每个数字各一次通过加法和乘法得到 2025。对于传统算法而言这是一道典型的组合优化题需要穷举所有可能组合才能找到解答而经过自我进化训练的谷歌 Jinnee 模型却能高效求解。具体来看Jinnee 模型的推理过程极具类人特征。它首先直觉性地判断目标数 2025 较大因此乘法是关键这是一种启发式策略而非暴力搜索随后模型洞察到 2025 是 45 的平方这一顿悟甚至在出题者本人最初设计时未曾意识到接着模型进一步分解问题决定构造中间乘积接近 45从而将 1 到 10 分成两组进行运算如 10×(45)459×3872145最终相乘得到 2025。整个过程没有尝试每一种可能组合而是通过目标分解、启发式判断和逻辑洞察逼近答案类似顶尖数学家在面对复杂问题时的思考方式。这一案例充分体现了大模型推理的独特之处它的智慧来源于海量数据和自我优化训练而非固定程序或暴力搜索使其在复杂、开放的问题空间中表现出灵活而高效的解决能力。六、提升推理性能的前沿技术尽管经过强化学习微调后的大型语言模型已经展现出强大的推理能力但在追求更高性能和可靠性的道路上研究者们仍在不断探索前沿技术。目前有两类方法被证明能显著提升模型的稳定性与准确率聚合与自洽性以及检索增强推理RAG。这些技术的核心理念是将模型原本潜在的推理能力与额外的操作或信息融合起来使其在复杂任务中能够更稳定地输出正确答案而不仅仅依赖单次生成的结果。聚合与自洽性方法的数学本质在于模型默认的贪婪解码选择的是“思考过程 答案”序列的联合概率最高项但用户实际关心的只是最终答案是否正确。理论上为了找到正确答案需要将所有可能导向该答案的推理路径概率加总即所谓的边际化。然而推理路径可能无限多直接计算几乎不可能。丹尼・周提出的自洽性方法是一种简单有效的近似通过随机采样让模型针对同一问题生成多个不同的“推理过程 答案”序列然后忽略过程只统计答案出现频率选择出现次数最多的结果。例如对于一道数学题如果生成 30 次候选答案其中 18 出现 30 次26 出现 20 次则最终选择 18。直觉是正确答案对应的路径更多即使单条路径出现偏差多次尝试后仍会被多数正确路径覆盖。实验证明这种方法效果显著在 GSM 8K 基准测试中微调后的 GPT-3 准确率约为 33%加上验证器提升至 55%PaLM 加思维链提示到 58%而再加入自洽性后直接飙升至 75%相对提升近 50%更强的 PaLM 2 更是达到了 92%。需要注意的是自洽性适用于生成中间步骤的情况如果模型直接输出答案则无需使用同时通过一次生成多个答案来替代独立采样也行不通因为这违背了概率近似原理。对于答案形式不唯一的问题如“列出亚洲最大的三个国家”可采用“通用自洽性”通过让模型判断哪个回答与多数答案最一致来实现稳定选择。另一种前沿技术是检索增强推理RAG其核心在于将大模型的推理能力与外部知识库或相关信息结合从而提升模型在复杂问题上的表现。关于大模型是否在“推理”或“检索”的争论丹尼・周持务实态度完全可以结合使用。以一道几何题为例“求四个顶点坐标为 (-2,2)、(2,-2)、(-2,-6)、(-6,-2) 的正方形面积”直接用 GPT-3.5 等模型可能会失败但若在提示中加入“先回忆一个相关问题”模型就会先生成“相关问题坐标平面上两点距离公式是……”然后再应用公式计算边长和面积最终得到正确答案。类似方法在物理题或其他领域也能起效通过提示模型先总结相关原理或概念再运用这些知识解题就可以显著提升准确率。这些方法体现了大模型推理的新趋势不必在逻辑推理与知识检索之间纠结而是将两者有机结合构建开放、灵活、可扩展的推理系统。聚合与自洽性通过统计不同推理路径的结果将潜在能力稳定化检索增强推理则利用外部信息补充模型内部知识从而让复杂问题的求解更加高效可靠。这两种技术不仅提升了模型在标准测试集上的表现也为实际应用提供了重要保障。未来大模型在解决开放性任务时将越来越依赖这种“内外结合”的策略使推理过程既具灵活性又具可靠性为人工智能在科学研究、教育、工程等各个领域的落地应用提供坚实基础。随着研究的深入大模型的推理能力正不断进化从最初依赖提示的外部引导发展到通过自我提升和验证器实现内化能力。前沿技术如自洽性解码和检索增强推理进一步提升了模型的稳定性与准确率使其在复杂、开放的问题空间中表现出灵活、高效的解决能力。这些方法显示未来大模型不再只是被动生成答案而是能够在结合内部潜力和外部知识的框架下自主探索最优推理路径为科学研究、教育、工程等多领域的实际应用奠定坚实基础。