谷歌「AI联合数学家」来了!刷新最难数学AI基准SOTA,牛津教授用它解开群论悬案
听雨 发自 凹非寺量子位 | 公众号 QbitAI数学界「悬案簿」Kourovka NotebookAI取得新突破。群论领域几十年无解的第21.10号问题被牛津数学家Marc Lackenby用谷歌一个新系统破解了。过程也很有意思AI第一次给出的证明是错的被系统里的审查Agent揪出了漏洞。Lackenby看到之后突然意识到「等一下我知道该如何填补这个漏洞」。于是通过和AI的反复配合Lackenby最终成功解答出了这道数学难题。这套人机协作的系统就是谷歌DeepMind最新发布的「AI Co-Mathematician」AI联合数学家。它在最难的数学AI基准FrontierMath Tier 4上拿了48%刷新SOTA。甚至超过了GPT-5.5 Pro39.6%和GPT-5.4 Pro37.5%。最近几个月不少数学难题诸如接连几个Erdős问题都是用GPT解决的。现在谷歌也回归了。「AI联合数学家」是什么「AI联合数学家」是一个异步、有状态的工作空间而非一问一答的模型。顶层有一个「项目协调者」Agent负责统筹拆解任务调度多条研究线并行推进。数学家上传一篇论文、提出一个研究方向后协调者不会立刻输出答案而是先和用户对话像真正的合作者一样帮对方精炼问题。之后它将任务分发到多条并行工作流一条做文献检索一条搭计算框架一条尝试证明策略。每条工作流都有自己的协调Agent异步运行互不阻塞。用户随时能介入、引导、接管。如果Agent卡住了它也会主动在聊天窗口里求助而不是沉默重启。比较特别的一点在于它对失败的态度。系统会持久化追踪所有失败的假说不会丢弃而是当作第一等的研究产出保存下来。论文中提到在数学研究里知道什么行不通往往和知道什么行得通同等重要。「AI联合数学家」会持久化追踪每一条死胡同、每一个被否定的假设、每一次审稿Agent发现的漏洞。这些「负空间」不会被丢弃而是成为后续探索的上下文。它的产出物也不是一段聊天记录或一篇未经验证的草稿而是带margin注释和来源溯源的LaTeX文档——完全契合数学家社群的工作习惯。「AI联合数学家」有什么意义论文里有一段很精妙的比喻软件工程领域已经有了Claude Code、Cursor这类AI编码环境它们提供了持续迭代、版本控制、测试验证的完整工作流。但数学家此前一直缺少一个等价的编排层。「AI联合数学家」就是试图填补这个空白。它的定位与DeepMind上一代系统AlphaEvolve完全不同。AlphaEvolve更像一个自主搜索引擎你把问题扔进去它进化出一个更好的算法人基本不在循环里。而「AI联合数学家」要求数学家始终在回路中系统在最适合的时机向人类提问而不是替人类做完整件事。刷新最难数学AI基准SOTA在benchmark上「AI联合数学家」也拿下了出彩的成绩刷新了最难的数学AI基准FrontierMath Tier 4的SOTA拿了48%的准确率。FrontierMath是Epoch AI开发的数学benchmark包含350道原创高难度题覆盖现代数学各大分支。其中Tier 4仅50题被Epoch AI描述为「其中一些问题可能数十年内AI都无法攻克」人类专家解决一道通常需要数天。「AI联合数学家」在48道非公开题中答对了23道准确率48%。GPT-5.5 Pro此前在Tier 4拿到39.6%GPT-5.4 Pro是37.5%Claude Opus 4.6/4.7则双双落在22.9%。相比之下「AI联合数学家」把最高分推了近10个百分点。值得注意的是它的底层基座模型Gemini 3.1 Pro单独做这个测试只拿到了19%。从19%到48%这29个百分点的跳跃完全来自系统层面的编排——并行调查分支、强制审查循环、文献检索工具、持久化代码执行基础设施。而且其中有3道题是此前所有系统都没答对过的新题。△内部100题研究级数学基准测试中的准确率得分基准之外论文中还提到有三位数学家已经用它来解决真实问题牛津大学数学家Marc Lackenby解决了Kourovka Notebook第21.10号问题群论。审稿Agent先发现了AI初稿里的一个漏洞Lackenby意识到自己知道怎么填补这个缺口最后论文诞生。数学家Semon Rezchikov在哈密顿系统中向系统抛出一个技术性子问题收到了一个关键引理。他的评价是「其他AI系统在同一个prompt上全部失败」且从美学上看这是他用过所有模型里证明风格最好的。还有Gergely Bérczi获得了关于Stirling系数对称幂表示的猜想证明。此外论文也坦承了两个失败模式。第一种叫「讨好审稿人偏差」Agent会不断改写有缺陷的论证直到AI审稿人不再能发现错误——但漏洞其实还在。第二种是「死亡螺旋」当迭代评审过程未能达成共识时Agent们会陷入无限审稿循环推理逐渐退化为幻觉。另外还有一个结构性问题当AI能在几分钟内生成一篇20页的证明草稿人类同行评审仍需要数天这对于依赖志愿者的学术评审体系会形成系统性压力。而且AI虽然很擅长进行逻辑核验发现代数错误或找出缺失的引用文献但它们依然缺乏判断一篇论文的优雅性、深度或真正数学价值所需的整体直觉。如果过度依赖AI评审可能会让人类定性判断被边缘化。当然在48%这个成绩上论文中也坦诚披露了评估差异。48%的得分是在特殊条件下取得的——每题给了48小时、没有token限制、使用团队自己的基础设施。这与Epoch AI标准评估框架不完全可比。团队背景「AI联合数学家」背后共有18位作者有几个名字值得单独说说。第一作者兼通讯作者Daniel ZhengGoogle DeepMind研究工程师研究方向是编程语言与机器学习的交叉。2024年AlphaProof拿到IMO银牌那个项目里他和Alex Davies共同主导了非正式系统包括最终答案判定模块的开发。Alex Davies同样是从AlphaProof到AlphaEvolve再到AI联合数学家的连续参与者是这条技术路线最重要的连接者之一。通讯作者Pushmeet KohliGoogle DeepMind科学副总裁兼Google Cloud首席科学家主导了AlphaFold诺奖级成果、AlphaProof、AlphaEvolve等一系列系统。这篇论文是他带的团队在AI for Math路线上的最新一步。另一位通讯作者Daniel M. Roy多伦多大学统计系教授研究横跨机器学习、数理统计和理论计算机科学。2025年底从加拿大Vector Institute研究主任卸任2026年1月以访问研究员身份加入DeepMind伦敦。三个学位均来自MIT。Fernanda Viégas和Martin Wattenberg则是PAIRPeopleAI Research团队的共同创始人同时也是哈佛计算机科学教授专注AI可解释性与人机交互。他们负责AI联合数学家的用户交互与界面层——这也解释了为什么这个系统在「如何让数学家愿意用它」上花了相当多的心思。值得注意的是数学家Marc Lackenby并不是临时找来测试的「外部数学家」。在其牛津主页的论文列表里可以追溯到2021年Lackenby就已经与Zheng、Davies等人合作发表过Nature论文。他是DeepMind数学AI团队的长期合作者。One More Thing放在更大的背景下这是谷歌在AI for Math方向上已经走了几年的一条路线。2024年AlphaProof用强化学习做形式化数学推理在IMO拿到银牌水准。2025年Gemini Deep Think在当年IMO达到金牌水准六道题答对五道。AlphaEvolve则是另一条线自主发现新算法在50多个开放数学问题上改进了20%的已知最优解。「AI联合数学家」和这几个系统定位不同不是更强的问题求解器更倾向于面向研究者日常工作流的协作工具。AlphaEvolve适合「给我一个更好的算法」「AI联合数学家」则适合「陪我研究这个方向几个星期」。目前「AI联合数学家」还在限量发布阶段Pushmeet Kohli的表述是目标是未来开发产品向更广泛的用户开放这个范式。它还不是所有数学家都能用到的工具但它证明了一件事AI和数学家之间的协作可以比「问答」复杂得多也有效得多。论文地址https://arxiv.org/abs/2605.06651参考链接[1]https://x.com/pushmeet/status/2052812585804685322[2]https://x.com/kimmonismus/status/2052849472586264997一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完—5月20日我们将在北京金茂万丽酒店举办一年一度的中国AIGC产业峰会。首波嘉宾阵容已公布昆仑万维方汉、智谱吴玮杰、EverMind邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund张璐、香港大学黄超、MarsWave冯雷都来了了解详情请你和我们一起不再只是讨论AI的未来而是现在就用起来。 报名参会一键关注 点亮星标