Tokenmaxxing
经济学中有一个自1975年以来就存在的原则当时英国经济学家[Charles Goodhart]撰写了关于英国货币政策的内容。核心思想简单而残酷当一个衡量指标成为目标时它就不再是一个好的衡量指标了。几十年来学术界之外几乎没有人关心这个。然后大型科技公司决定构建AI排行榜突然间Goodhart看起来像一个先知。在科技行业工作了十多年我见过很多有问题的管理决策但这个值得单独设一个类别。亚马逊、Meta和微软去年花了大半时间构建内部仪表板来追踪员工使用AI工具的频率。没错你没看错。其陈述的逻辑还算合理。更多的使用意味着更多的生产力增益高管们希望在向投资者解释基础设施账单之前证明这些增益是真实的。但他们得到的是一堂关于如何因为过于在意一个指标而摧毁它的教学课。1、亚马逊强制员工使用AI亚马逊设定了一个目标要求超过80%的开发者每周使用AI工具。它在内部排行榜上追踪使用情况创造了一种使人不断感受到必须在正确数字那边出现的压力环境。一名员工将这种氛围描述为带有不正当激励。亚马逊官方告诉工人AI使用统计数据不会纳入绩效评估。多名员工表示他们不相信这一点老实说鉴于最近企业界发生的一切我不怪他们持怀疑态度。所以工程师们做了人们在职业生涯取决于一个数字时会做的事他们找到了推动数字的方法。2、员工找到了作弊的方法从所有这些压力中产生的行为现在在技术圈子里有了自己的名字tokenmaxxing。这个想法听起来和它本身一样愤世嫉俗。如果你被评判的标准是你消耗了多少AI token你会想方设法推高计数而不管工作是否真的需要做。在亚马逊一些员工转向了MeshClaw——一个内部智能体平台能够启动代码部署、分拣电子邮件并与Slack交互。工人们不是用它来做真正的任务而是专门运行它来夸大他们的token消耗分数。Meta和微软在大致同一时间也出现了类似的动态。Meta的内部AI使用排行榜在公开报道后仅存在了几天就被公司悄悄撤下了。亚马逊此后限制了全团队使用统计数据的可见性但任何认为底层压力随仪表板一起消失的人都是在过于乐观。3、古德哈特定律的核心这是古德哈特定律在7,000亿美元规模上运行。Token消耗从来都不是生产力的衡量标准。它是一个代理指标一个在仪表板上看起来可测量的捷径给高管们提供了一个在全员会议上可以指的东西。当它成为一个与人们职业生涯挂钩的目标时唯一理性的事情就是博弈它。这不是个人道德的失败。这正是该定律预测每次都会发生的事情无一例外。4、这就是变得昂贵的地方这不仅仅是一个令人尴尬的HR故事的原因是虚假的数字没有留在大楼内部。两年来每个主要的超大规模企业都在向投资者讲述同样的故事——AI采用正在加速对计算的需求是贪得无厌的基础设施支出是由真实的、不断增长的 Usage 来证明合理的。亚马逊、微软、谷歌和Meta在2026年合计的资本支出在7,000亿到7,250亿美元之间比去年已经令人瞠目的4,100亿美元增长了77%。这些钱进入了GPU订单、数据中心租赁和电力合同而这些合同是多年前根据直到现在才有人认真质疑的需求信号定价的。将这个规模扩大到亚马逊、Meta和微软的数千名工程师高管向投资者展示的采用数据开始变得不太可靠。5、黄仁勋的基准英伟达CEO黄仁勋已经将每位工程师的token消耗量变成了某种接近道德基准的东西。他在一次公开活动中说如果一名年薪50万美元的工程师每年不消耗至少25万美元的token他会深感担忧他将不使用AI工具的工程师比作仍在用纸和铅笔工作的芯片设计师。我理解他想表达的观点我认为他是真诚地相信这一点。但当你知道整个行业的工程师正被施压去达到token目标而不管他们是否真的需要使用时这种说法的意味就完全不同了。每个被夸大的token都是真实的GPU时间。6、接下来会发生什么Block前AI工具工程副总裁Angie Jones表示她预计行业将转向衡量高效token使用量而不是原始数量。这是一个更诚实的框架但要达到这一点需要公司承认他们当前的指标是破损的而在股票上涨时这是一场更难进行的对话。Meta在几天内撤下了排行榜。亚马逊随后掩埋了使用数据。你自己得出结论吧。7、结束语Tokenmaxxing就是当你衡量了错误的东西并将人们的生计与这个数字绑在一起时发生的事情。我发现很难对那些博弈了指标的工程师们太过苛责因为替代方案是看着自己的绩效评估受损而配合的同事们却在前进。Goodhart在1975年就想明白了这一点。这个洞察在当时并不复杂现在也不复杂。唯一不同的是价签。原文链接Tokenmaxxing - 汇智网