夜深了电脑屏幕的蓝光映在脸上。我目不转睛地盯着后台那一串数字, 陷入发呆的状态, 其中包括token消耗, 连带GPU占用率, 还有推理延迟等等, 这些参数好似是一群始终不睡觉的蚂蚁一样, 在我的眼前不停地爬来爬去, 没完没了。搞AI的人大概都有这种感觉:算力永远不够用。你可能觉得我在凡尔赛。但真的不是。二零二四年, 全球人工智能算力需求增长幅度约为百分之四百。该数字并非本人编造, 乃是多家研究机构交叉验证后得出的结果。百分之四百, 究竟是什么概念? 以你手中持有的手机举例, 其性能实现四倍提升大约需要多少年时间? 至少需要整五年。殊不知人工智能那庞大的需求增长速度, 在仅有一年时间里就直接翻了整整四倍。问题来了:AI为什么这么能吃算力它到底在“吃”什么AI的算力都吃在哪了好多人觉得, AI训练是, “于其中投放数据给予模型, 让模型去掌握回答问题这种技能”。这样的认知并无差错, 然而, 未免显得过于生硬、缺乏精细度了。事实上, 在一个AI模型的生存周期当中, 计算体力的耗费主要聚焦于两个时期, 分别是: 开展训练之时、进行推理之际。AI处于训练阶段时, 就如同它的“学生时代”似的。其模型宛如年幼稚嫩之人, 当予以它观视为数达1000万张的猫的图片之际, 它会逐步揣悟出“哦, 原来这个有着毛茸茸模样的事物称作猫”。而此进程耗费的计算能力极为可观。以GPT - 4为例, 在业内所形成的普遍认知里, 它的训练所需成本处于1亿至2亿美元的区间范围之内。需要留意的是, 这仅仅只是针对电费以及硬件折旧费用而言, 并未将研发工作人员的薪资计算在内。处于推理阶段时, 这属于AI那儿的“工作状态”。当你向它致以询问“帮我写一封道歉信”, 它需要适时地去调用所学到的知识, 故而会逐字逐字地往外输出的。每开展一次回答, 实际上都正在消耗着算力的。有一组数据, 你尝试感受那般: 在2025年的时候, 全球范围内, AI推理算力的所占比例, 于首次的时候, 超越了训练算力。这到底是啥意思? 以往的时候, 大家都在一门心思地忙着“养”模型, 而如今, 模型已然被养大了, 紧接着就开始要“用”模型了。使用模型的人要是越多的话, 那进行推理所消耗的算力就会变得越发恐怖。一块GPU到底能干啥你或许听闻过这个词汇: GPU, 它并非为AI特意打造的用途, 最初是针对那些热衷于玩游戏的人士所设计的, 然而随后众人察觉到, GPU所拥的那种能够在同一时间开展诸多件相对简易之事的独特性质, 格外契合用于运行AI计算。单个英伟达H100 GPU功率为700瓦, 该功率较你家空调的功耗更高。它每秒钟能够处理的浮点运算是大约2亿亿次。此运算量数值过高无比巨大, 致使没有任何人类个体能够以直观方式去达成理解。要是用H100去训练一回GPT - 3规模的模型, 也就是有着1750亿参数的那个模型, 那就得需要三千多块GPU持续运算, 不间断地跑上一个多月才行呢。一个月, 三千多块有着每块功率为700瓦的, 你来算一下电费是多少, 按照国内工业电价0.8元一度来计算, 光电费就快要接近一千二百万了, 这还不包括GPU本身的价格, 一块H100的渠道价格可是在25万跟30万人民币之间。所以大模型不是谁都能玩儿的。为什么模型越大需要的算力越多在这儿存在着一个颇为违背直觉的规律, 模型的参数进行翻倍操作的时候, 所需用的算力相应地呈现大约翻 4 倍的情况。不是2倍是4倍。之所以参数越多, 是由于参数之间的连接会越发紧密。这就好比你朋友圈仅有10个人, 这样以来你所需要维护的关系也就几十条要是你朋友圈有10万人, 那么关系网络便会复杂到惊人的程度了。在2024年发布的若干开源模型之中, 例如Llama编号为3.1的其版本号为405B的那个版本, 其参数量达到了4050亿。这样量级的模型, 是在具备几万块GPU的集群之上进行了为期几个月的训练成果。但这里有个陷阱。算力堆得越多收益就一定越大吗不一定。也就由此引出了一个处于关键地位的概念, 即缩放定律。简而言之这意味着, 当你朝着模型之中堆叠起更多的参数时, 给其投喂更多的数据, 再运用更多的算力, 模型的性能的确是会得到提高。然而提高的速度却是会有所减缓。打个比方来说要是学英语, 刚开始从0分提高到60分, 你仅仅只需认真去学两个月, 然而从98分提升到99分, 也许你会需要再学半年才行。AI亦是如此, 早期之时大模型能力进展迅猛, 然而到现今处于2025年这个阶段, 好些团队察觉, 即便再去堆叠算力, 效果提升起来却并非那般显著了。于是大家开始想办法“省着用”。怎么省三种主流思路第一种情况是量化, 将模型当中的数字精度予以降低了, 原本每个数字是以16位小数来存储信息的, 如今换成了8位甚至更低的4位, 精度降低这种情况出现后, 模型推理的速度却得到了大幅度的提升, 并且显存占用同样出现了大幅度下降的情况, 通过实际测量显示, 从FP16转变为INT8之后, 推理速度能够提升大概2倍, 然而回答质量下降的幅度却不到1%。第二种是蒸馏, 用一个大的并且性能良好的模型, 去“教导”一个小模型, 大模型告知小模型: “碰到这种问题, 你应当如此回答。”, 小模型学到了大概七八成 , 但其体积或许仅为大模型的十分之一 , 运行起来速度极快 , 像Meta的Llama 3.1的8B版本 , 便是405B版本的蒸馏所得产物。第三种情况, 是稀疏化, 人类大脑存在约860亿个神经元, 然而同一时刻仅有一小部分处于活跃状态, AI模型亦是如此, 很多参数实际上能够“关掉”, 而这不会对最终输出造成影响, 稀疏化技术便是去找出哪些参数属于“闲人”, 将它们暂时冻结, 仅仅让核心参数进行工作, 如此一来, 相同的硬件便能够运行更大的模型。算力紧张的局面会改变吗短期看不会。全球芯片产能仍处于爬坡进程之中, 台积电的CoWoS先进封装产能, 预计在2025年将会实现翻倍的增长, 达到每月4万片晶圆的规模, 然而即便如此, 依旧呈现出供不应求的态势。英伟达的B200芯片, 才刚刚开始打算全面铺货, 在尚未全面开展铺货行为之前, 就已经出现被预订至全部为空的状况。但长期看有几个变量可能会改变游戏规则。其一, 是专用芯片的兴起, 谷歌的TPU产生, 亚马逊的出现, 华为的昇腾系列问世, 这些俱是专门针对AI任务所进行设计的, 专用芯片于特定任务方面展现出的效率, 常常是通用GPU好多倍。其一, 量化、蒸馏、稀疏化, 这些我刚才所提及的技术, 正在迅速迭代, 这体现了推理优化技术已然成熟。其二, 有公司已然达成大模型于手机之上的本地运行, 而这在两年以前, 尚属望尘莫及犹如天方夜谭之事。其一, 存在云计算与边缘计算相融合的情况。其二, 往后或许并非是“你将问题发送至云端, 云端计算完再反馈回来”这般, 而是“在手机上先展开部分简便的运算, 复杂一些的运算随后再交付给云端”。其三, 如此一来的分层计算方式, 能够极大程度降低对于中央算力池的倚重程度。但有个问题很少有人聊就是算力的分布不均衡。迈入2025年呈现出的模样是, 人工智能算力在全球范围内, 占据90%以上份额的部分, 被控制于数量不足20家的公司手中, 这些公司涵盖大厂、头部地位的创业公司以及顶级的实验室, 它们拥有达到上万块图形处理器的集群。而那些普通的开发者、规模较小的团队以及身处高校的研究者, 有可能连几十块图形处理器都整合不来。这样便导致了一种被称作“算力鸿沟”的状况, 存在算力的团队, 其模型朝着越来越庞大、越来越优良的方向发展, 而缺乏算力的团队, 甚至连进入的资格凭证都无力购置。是不是这样就公平呢, 并不是能够明确去表述论断的 , 然而最起码当下所呈现出来的一种态势走向是 , 算力存在着正愈发昂贵 的 , 以及愈发集中的情况。最后的一点胡思乱想写这篇东西的时候我顺手查了一下自己的API调用记录。上个月, 我单独一人, 在上, 进行了推理请求, 此请求消耗的算力, 大概相当于训练一个拥有百亿参数模型所需算力的千分之一。一千份里面的一份, 听起来量不多极。不过静思一下, 全世界有哪些和我一样的客户, 在不分昼夜不间断去运用AI的时长里, 那个累积的总数便会显得非常惊人恐怖。或许会有那么一天, AI算力会如同电力那般, 演变成基础设施, 届时, 你将不再须要去操心“这块GPU的运行速度究竟有多快”, 恰似你当下不会去在意“这个插座所输的电是源自哪一个发电站”。你只管用。算力的事交给他们。可是起码于当下, 依旧得注视着后台的那个GPU利用率表露茫然神情。接着静悄悄地, 给项目组撰写一封邮件:“再加几块卡。”