5月22日晚19点2026年鲲鹏昇腾开发者大会KADC开幕首日一场以AI Agent浪潮下定义AI算力基础设施实现Token自由为主题的技术巅峰对话在北京中关村国际创新中心举行华为Fellow、计算架构与设计部部长蒋铭奇点智能研究院院长、CSDN高级副总裁李建忠科大讯飞内核技术部总监汪锦想三位嘉宾围绕AI Agent的发展趋势、大模型的技术演进以及超节点架构的核心价值展开了深入对话。当前Agent 正在重构整个软件产业Token 消耗呈指数级增长传统的 Scale Out 集群架构已经走到了物理极限。三位嘉宾从技术趋势、产业实践和架构创新三个维度清晰地论证了一个核心判断超节点不是对传统架构的修补而是一场算力范式革命是支撑AgenticAI时代的最优解。奇点倒计时Agent正在重构整个软件产业所有技术变革的起点都是需求的爆发。本次对话的第一个共识是AI Agent已经从概念走向现实正在以超出所有人预期的速度重塑软件产业的形态和开发方式。技术奇点已进入倒计时指数级增长成为行业共识蒋铭在开场中引述了两个近期信号。一是Anthropic联合创始人Jack Clark在5月4日预言2028年Agent有60%的概率进入自主进化阶段二是赫拉利在2026年初的达沃斯论坛上宣告技术奇点可能在2030年前后到来。李建忠结合技术史的发展介绍了“连接”与“计算”的技术钟摆效应第一次连接革命发生在18401940年间代表技术是电报、电话、广播、电视接着是19401990年间的计算革命代表技术是大型机、小型机、PC然后是19902015年之间的第二次连接革命代表技术是互联网、移动互联网、云计算再之后是2016年至今的第二次计算革命也就是人工智能以Transformer、大语言模型为标志。从时间尺度来看连接革命与计算革命交替进行且大约以100年、50年、25年的指数级加速呈现。 依此预测AGI的奇点大约时间即为2030年左右。李建忠强调奇点临近的这种指数级加速度特别是2026年在Agent和AI Coding方面的爆发让全行业都感受到非常强烈的推背感——即AI技术的飞速发展对产业生态的倒逼式冲击。汪锦想则从一线研发的视角描述了这种非线性加速的切身感受AI这个东西好像离我们很远但它的速度不是线性的。它好像是迷雾中的东西当你听到声音的时候真正发现时可能已经到眼前了。AI Coding 爆发软件产业正在经历双轮驱动变革这种指数级增长最直观的体现就是 AI Coding 领域的爆发。2025年5月发布的Claude Code 半年后ARR突破10亿美元到2026年5月预计达到100亿美元——成为企业软件史上增长最快的产品。公司估值从2025年3月的615亿美元飙升至2026年5月的9000亿乃至12000亿美元。这个产品是我个人认知转变的一个缩影蒋铭坦言我是一个老程序员去年年初用AI编程时觉得它只能做辅助级的工作。但今年初用了Claude之后完全转变了——代码写得太快了我根本看不过来。它会自动做单元测试自己写错了还会根据报错自行修正多轮迭代后满足新的要求。汪锦想从需求侧解释了这种爆发的深层逻辑以前软件是奢侈品现在变成了很普通的东西。原来不会写代码的人也能做出初步原型。需求量非常大大家看到了震撼的场景应用之后这个增长速度和需求量对Token的消耗就非常大。李建忠则将这场变革概括为一个更具穿透力的框架——Agent时代双轮驱动的软件范式变化。首先是软件应用形态的变化越来越多的软件被Agent取代部分软件变成Agent的下游工具。 深层次来看这是基于冯·诺依曼架构的确定性计算在向基于神经网络的非确定性计算的范式迁移。与此同时软件开发方式也在快速变化Agent正在成为软件开发的主力在软件开发流程的各个环节发挥重要作用。程序员则从Programmer向Builder角色转化。双轮驱动加乘之后的范式变革是颠覆式的你做的东西变了你做事的方法也变了。他将AI Coding的冲击力类比为推土机——一层一层把传统软件铲掉。SaaS软件去年的收入并没有降很多但估值体系几乎崩塌了。因为大家看到了Agent对它的颠覆级作用。Claude Code不是一家公司的胜利而是一个信号Token正在从对话消耗品变成生产力要素。而生产力要素的大规模需求离不开基础设施的支撑。算力瓶颈不在算力本身而在访存比要理解为什么需要超节点首先要理解大模型推理的核心瓶颈在哪里。AI 计算的本质矛盾是算力与访存的失衡蒋铭用第一性原理做了一个简洁的解释。AI计算本质上是并行计算系统。在局部进行比特翻转、晶体管的状态变化效率很高。但在长链路上进行数据搬移非常困难。他说这导致所有并行计算系统都面临一个核心指标——算力访存比一个数据读进来需要处理多少次才能把算力充分发挥出来。矛盾恰恰出在超长序列推理上。以DeepSeek V3为例单条1M长序列的KV Cache需要约35GB内存空间一张卡的内存不过一两百GB能支持的批次大小仅5到6条。批次上不去算力利用率就低推理成本就高。这就是Token昂贵的来源。蒋铭说。Claude Code的API输出定价为每百万Token 25美元Fast Mode高达150美元——而DeepSeek V4的同等输出仅6元人民币差距高达30倍。蒋铭指出这种价格差异背后是模型架构创新的差异DeepSeek V4的超稀疏MoE架构使实际算力消耗大幅降低但能力因参数规模依然很强。MoE 模型将瓶颈从算力转向访存然而超稀疏MoE带来了新的挑战——主要瓶颈从算力转向了访存。假设所有专家放在一张卡上批次为64时会产生384个专家处理请求需要读取约1.5TB参数但每个数据只计算两次违背了高算力访存比原则。解决这个问题的业界通用方案是专家并行EP—— 将专家分散到更多卡上每张卡存放尽可能少的专家。极限情况下每张卡放一个专家读一次参数可以计算多次算力访存比大幅提升。但 EP 并行的效果高度依赖互联质量。蒋铭以华为自身产品为例做了对比传统以太网集群也可以做 EP 并行但同样并行规模下性能与超节点相比差距达 2.5 到 3 倍。通过专家并行获得的访存效率提升收益会被以太网的通信代价全部吃掉。汪锦想从解码环节的技术特性做了更深层的剖析。他指出了一个关键事实解码是一个无法掩盖通信开销的串行过程。通讯的时候就做通讯通讯完了再做专家计算计算完再做后续运算。相互之间都没有办法掩盖。他说一旦通信不能隐藏开销就全部暴露出来。在训练阶段通信开销可以通过计算任务穿插来部分掩盖。但解码不行——它是逐token生成的严格串行过程每一次通信都是硬等待。按照我们的实践这种不可隐藏的通信你通过其他维度去调优会付出很大代价——增加复杂度出错概率也增多。汪锦想的结论是最好的办法还是把时延降低和把带宽提升上去。说到底还是要靠顶尖的互联技术把不可隐藏的通信延迟降下来。这是最硬核的技术。这也就解释了超节点为何成为大模型推理的关键底座——它不是一个锦上添花的性能优化而是专家并行能否成立的前提条件。没有足够快的互联EP并行的收益会被抵消大模型推理就只能停留在昂贵的低效状态。超节点的本质不是更多卡而是一台计算机那么超节点究竟是什么它和传统集群有什么本质区别超节点是物理上由多个计算单元通过高效互联协议紧密连接逻辑上具备一台计算机特征的Scale Up计算系统。它和传统集群最核心的区别不是简单的多设备堆叠而是打破了节点边界——核心依托灵衢互联技术构建了两大核心能力全局统一的内存地址空间。 传统集群中每个节点拥有独立的地址空间跨节点通信需要软件编码、协议传输。而在超节点架构下所有NPU和CPU共享一个全局单一虚拟地址空间可以直接用虚拟地址访问任意位置——无需改代码、无需路由、无需拷贝直接通过load/store指令完成数据访问。内存语义跨节点访问。 超节点的通信不是由显性的通信原语触发的而是由处理器微内核的load/store微指令直接发起在纳秒级触发总线上的数据交互。正如蒋铭所解释的汇编语言最基础的指令就是load/store这些微指令直接触发总线操作转化为通信行为。指令周期在纳秒级一个指令就能完成一次通信调度。汪锦想从昇腾架构的实际落地角度做了补充基于灵衢互联和总线控制器AIC/AIV通过MTE指令访存远端无拷贝。512B小包读写对比消息语义时延下降59%。全局单一虚拟地址空间NPU/CPU直接用虚拟地址访问任意位置无需改代码、无需路由、无需拷贝直接load/store。KV Cache全局共享、超长上下文无缝扩展。这两项核心能力使超节点不再是传统意义上的集群而是一台真正意义上的超级计算机。当然将数百个计算单元整合为一台计算机并非没有代价。蒋铭坦诚地讨论了技术挑战以太网丢包是常见现象依靠握手协议保障数据完整。但超节点架构无法依靠处理器处理这类校验工作耗时太大。容错、拥塞、反压等防护机制都必须在硬件总线层面实现技术难度很高。正是这些底层创新的难度构成了超节点的技术壁垒。超节点的规模为什么必须持续扩大因为模型的Scaling Law没有停下超节点的规模演进不是厂商的军备竞赛而是模型发展规律的客观要求。汪锦想从模型发展的视角分析了这一趋势从几B模型到100B再到MOE架构的300B现在是多T的规模。这种扩大对智能提升是有的但受限于AI Infra的工程能力。工程能力越强承载的模型尺寸就越大。他进一步指出专家数的演进路径已经清晰——现在是200、300、400个未来有可能增加到1000多个。李建忠则提出了一个更具前瞻性的维度——Agentic Scaling。从去年到今年推动整个AI行业快速发展的Scaling Law也迎来了全新的变化Agentic Scaling他说。他列出了三个关键指标Agent的迭代深度、执行时长、协作数量。现在主流Agent的协作数量是十几个到几十个但很快会看到几百个甚至上千个。执行时长从天到周、月、年为单位。迭代深度也在快速增长蒋铭也补充了另一个角度正是去年DeepSeek V3发布之后更大规模模型的体验没有那么好原因很可能就是Agent Coding这种新的应用方式还没有出现。用过去对话和做题的标准找不到继续发展的牵引。但今年不一样了——Coding重新开启模型规模越大就能直接对Coding质量提升Scaling有了结果标准去衡量、去推动。应用牵引模型模型驱动算力算力倒逼基础设施——这个飞轮已经转起来了。在产品层面华为昇腾384超节点目前由12个计算柜、4个总线柜组成NPU间点对点双向带宽达784GB/s做到带宽无收敛。蒋铭透露昇腾8K超节点已在规划中可支持1K节点并向8K演进。企业采购硬件后面对模型迭代升级可以灵活拓展计算域范围来适配更大规模模型保障投资价值。此外蒋铭提到超节点架构还将支撑更多新型技术趋势PD分离Prefill-Decode分离因二者算力配比不同、KV Cache分离、以及科学计算的流转等这些都需要高速总线来支持连接将进一步推动超节点规模的扩大。超节点的终极价值让每一个Token更高效、更经济如果把Token比作智能时代的石油那么超节点就是炼油厂——它不生产Token但决定了Token的生产效率和单位成本。对话尾声三位嘉宾分别用一句话为这场讨论收尾。李建忠将视角聚焦于业务奇点正在加速到来智能体正在重构各行各业所有从业者都要紧跟技术变革节奏依托超节点创新技术主动迎接奇点时代。汪锦想聚焦技术内核的兑现超节点依托低时延互联总线技术实现了全局统一寻址和内存语义化访问让技术理念真正落地为商用现实。未来在规模、带宽、时延上会持续突破支撑更大规模的算力协同前景值得期待。蒋铭则把落点放在了每一个人的切身体验上用超节点技术打破AI发展现存瓶颈带给每个人最佳的人工智能体验早日实现Token自由。奇点或许尚在路上。但当三位来自不同领域、不同立场的技术人坐在一起得出同一个判断——算力基础设施的范式转移不是要不要发生的问题而是已经发生的事实——这本身就已经是答案。