B物理反常的全局拟合：有效场论与机器学习解析新物理信号

张

张建站

2026/5/24 5:57:47

10分钟阅读

1. 项目概述当B介子衰变“不听话”时我们如何用数学语言寻找新物理在粒子物理的精密前沿标准模型Standard Model, SM一直是我们理解微观世界最成功的理论框架。然而物理学家们从未停止过对它的“压力测试”。过去十年间一系列来自B介子衰变的实验数据像一个个微弱的“异常信号”持续挑战着标准模型的预言。其中最引人注目的莫过于被称为“B物理反常”的现象实验测量到的某些衰变分支比与理论计算值出现了系统性的、超出误差范围的偏差。这些偏差并非随机噪声它们主要集中在两类过程上。一类是所谓的“带电流”过程比如B介子衰变为D或D介子并伴随一个τ轻子和中微子b → c τ ν。实验上我们通过构建轻子味普适性Lepton Flavour Universality, LFU比值例如RD和RD来观察不同代轻子电子、μ子、τ子在衰变中是否被同等对待。标准模型预言这些比值应为1但实验测量值却持续偏高暗示τ轻子的衰变率可能被某种未知机制增强了。另一类是“中性流”过程特别是涉及中微子的稀有衰变如B → K(∗)νν。最近Belle II实验报告了B → Kνν衰变分支比的测量值其显著高于标准模型的预期这为B物理反常的拼图增添了新的一块。面对这些实验“线索”理论物理学家需要一套强大的工具来解读。直接构建一个具体的新物理模型如超对称、额外维度等固然是一种思路但更通用、更“模型无关”的方法是有效场论。你可以把它想象成一种“黑箱”分析工具我们不知道黑箱即高能新物理内部的具体结构但我们可以在低能区即我们实验能触及的能标如几个GeV观察它的“输出”效应。EFT允许我们系统地用一系列由Wilson系数参数化的高维算符来描述这些效应而不必事先指定高能理论的细节。这就像是通过观察一个复杂系统对外部刺激的反应来反推其内部可能存在的相互作用规律而不需要拆开它看里面的每一个齿轮。本项目的核心正是运用EFT这一工具对最新的B物理反常数据进行一次全面的、协同的全局拟合分析。我们不仅纳入了经典的RD(∗)和RJ/ψ数据还首次将Belle II最新的B → Kνν结果纳入考量。更重要的是我们注意到实验格局的一个关键转变此前同样存在异常的b → s ℓℓ−过程如RK和RK*比值其最新测量结果已与标准模型预言一致。这一变化迫使我们重新审视EFT中的算符结构。我们发现允许描述新物理的单态算符系数C1和三重态算符系数C3相互独立即C1 ≠ C3而非像过去一些分析中假设的相等能更好地同时描述b → c τ ν的持续异常和b → s ν ν的新超出同时与已回归正常的b → s ℓℓ−数据保持兼容。这为我们勾勒新物理的可能形态提供了更清晰的画像。接下来的内容我将以一个理论计算从业者的视角带你深入这个拟合项目的“后台”。我们会拆解有效场论框架如何搭建看Wilson系数如何在具体衰变过程中“登场”并详细复盘我们如何利用机器学习方法在近600个实验观测量的“数据海洋”中为这些系数找到最可能的取值范围。无论你是刚接触B物理的研究生还是对粒子物理前沿感兴趣的同好希望这篇“实战笔记”能让你对如何用数学工具探索物理前沿有更具体的认识。2. 理论框架搭建从标准模型有效场论到具体衰变观测量要进行全局拟合首先必须建立一个坚实且自洽的理论计算基础。我们的工作流可以概括为在某个高能标Λ例如1 TeV处假设存在超越标准模型的新物理我们用标准模型有效场论来描述它。然后通过重正化群演化将效应传递到低能标如B介子质量mb附近匹配到弱有效理论中最后计算出具体衰变过程的观测量如分支比、比值。这个过程环环相扣任何一个环节的疏忽都可能导致错误的物理结论。2.1 核心算符我们关注哪些“新相互作用”在SMEFT框架下我们只关注那些可能解释B物理反常的、最相关的算符。我们工作的起点是以下包含左手费米子双场的维度-6拉格朗日量[ \mathcal{L}{\text{NP}} \frac{\lambda^l{ij} \lambda^q_{kl}}{\Lambda^2} \left[ C_1 (\bar{l}i \gamma\mu l_j)(\bar{q}_k \gamma^\mu q_l) C_3 (\bar{l}i \gamma\mu \tau^I l_j)(\bar{q}_k \gamma^\mu \tau^I q_l) \right] ]这里有几个关键部分需要拆解能量标度Λ通常设为1 TeV这代表了我们认为新物理可能出现的特征能标。它出现在分母中意味着新物理的效应随着能标升高而减弱因为算符是1/Λ^2量级这是有效理论的基本特征。Wilson系数C1和C3这是我们要通过拟合来确定的核心参数。C1对应单态算符C3对应三重态算符τ^I是泡利矩阵。它们衡量了各自所代表的新相互作用的强度。在过去的许多分析中为了简化常假设C1 C3。但最新的实验数据特别是RK(∗)恢复正常而B→Kνν出现超出强烈暗示我们需要将两者视为独立参数即C1 ≠ C3。这是我们本次分析中“场景三”的核心设定。味结构矩阵λ^l和λ^q它们决定了新物理如何与不同代的轻子和夸克耦合。这是连接高能理论和低能观测的桥梁。一个简单而合理的假设是新物理只与某个特定“基”下的第三代费米子有强耦合。当我们通过味混合即CKM矩阵旋转到质量本征态时就会产生非对角元从而解释为什么新物理主要影响涉及底夸克和τ轻子的过程而对第一、二代影响较小。矩阵λ被参数化为两个复数α和β其具体形式保证了矩阵是厄米的、幂等的且迹为1这反映了新物理只耦合到一代费米子的原始假设。注意选择这个特定的算符集并非随意。它是由物理动机驱动的这些算符能在树图水平上贡献给b→cτν和b→sνν过程同时其对b→sℓℓ−过程的贡献可以通过重正化群效应产生并且与当前实验数据兼容。忽略其他算符如涉及右手费米子或标量流的算符是因为它们要么在干涉项上受到螺旋度压制要么会被其他更严格的实验如μ子寿命测量、原子物理精密测量所强烈限制。2.2 从高能到低能匹配与演化有了高能标度的SMEFT拉格朗日量下一步是将其“映射”到我们在B物理能标~5 GeV直接计算衰变振幅时使用的弱有效理论。对于b → c τ ν过程相关的WET拉格朗日量为 [ \mathcal{L}{b\to c\tau\nu} -\frac{4G_F}{\sqrt{2}} V{cb} \left[ (1 C_{V_L}) O_{V_L} C_{V_R} O_{V_R} C_{S_L} O_{S_L} C_{S_R} O_{S_R} C_T O_T \right] \text{h.c.} ] 其中OVL等是具体的四费米子算符例如OVL (c̄L γμ bL)(τ̄L γμ νL)。CVL等是WET层面的Wilson系数。标准模型的贡献已经包含在“1”中因此任何非零的CVL等都代表新物理贡献。匹配关系是连接SMEFT系数和WET系数的桥梁。通过计算我们可以得到在树图水平 [ C_{V_L} -\frac{\sqrt{2}}{4G_F \Lambda^2 V_{cb}} \left[ 2 C^{3323}{\ell q(3)} \right] -\frac{\sqrt{2}}{4G_F \Lambda^2 V{cb}} \left[ 2 C_3 \lambda^q_{23} \right] ] 这个公式至关重要。它告诉们在b→cτν过程中起主导作用的是三重态系数C3并通过味矩阵元λ^q_23连接第二和第三代夸克进入。标量算符和右手矢量算符的贡献要么是普适的不破坏轻子味普适性要么不与标准模型发生干涉而受到压制因此在我们的主要分析中可以忽略。对于b → s ν ν过程情况类似但略有不同。相关的WET拉格朗日量涉及中性流算符。其匹配关系为 [ C^{NP \nu\nu‘}L -\frac{\sqrt{2}\pi}{G_F \Lambda^2 \alpha{\text{em}}} \left[ C^{\nu\nu’ 23}{\ell q(1)} - C^{\nu\nu’ 23}{\ell q(3)} \right] -\frac{\sqrt{2}\pi}{G_F \Lambda^2 \alpha_{\text{em}}} \left[ C_1 \lambda^q_{23} - C_3 \lambda^q_{23} \right] ] 注意这里的符号b→sνν过程同时依赖于C1和C3并且是两者之差。这正是为什么当RK(∗)异常存在时该过程正比于C1C3人们倾向于假设C1 C3因为这样b→sℓℓ−会得到很大修正而b→sνν不受影响C1-C30。但现在RK(∗)恢复正常而B→Kνν出现超出这就自然导向了C1 ≠ C3的解决方案让C1和C3大小接近但符号相反可以使C1C3 ≈ 0满足RK(∗)同时C1-C3 ≠ 0产生b→sνν超出。重正化群演化是一个技术性很强但不可或缺的步骤。从TeV能标到b夸克能标Wilson系数会随着能标变化而“跑动”。更重要的是不同算符之间会通过量子修正相互混合。例如我们关心的Oℓq(1)和Oℓq(3)算符通过圈图修正会贡献到影响Z玻色子与费米子耦合的算符上。因此在全局拟合中我们必须使用像smelli这样的专业工具来精确计算所有相关算符从高能到低能的演化以及它们对大量观测量的贡献包括Z玻色子宽度、前后不对称性、味改变中性流过程等。这确保了我们的新物理解释不会在其他已被精确测量的领域引发新的矛盾。2.3 观测量计算从系数到实验可测量最后我们将低能有效理论中的Wilson系数代入具体衰变过程的形状因子和相空间积分公式计算出理论预言值。对于RD和RD*它们定义为τ子道分支比与电子、μ子道平均分支比的比值。理论计算需要输入B→D(∗)的形状因子描述强相互作用如何将初态B介子“捏合成”末态D介子。这些形状因子来自格点QCD或光锥求和规则等非微扰计算是理论误差的主要来源之一。幸运的是在比值RD(∗)中大部分强子不确定性相互抵消使其成为非常“干净”的观测量。对于B→K(∗)νν衰变分支比的计算公式相对直接但同样依赖于B→K(∗)的形状因子。理论预言对形状因子的误差相对不敏感。最新的理论计算给出了很高的精度使得实验测量与SM预言的任何偏离都显得格外显著。实操心得理论误差的处理在拟合中理论误差和实验误差同等重要。我们的做法是将理论预言值如形状因子参数的中心值和协方差矩阵也作为输入在构建χ²时将理论误差与实验误差以适当方式合并。对于像RD(∗)这样的比值我们采用最新、最权威的格点QCD计算结果并确保在误差传递时考虑其相关性。忽略理论误差的相关性或者使用过时的理论输入都可能导致拟合结果出现偏差甚至得到虚假的信号。3. 全局拟合策略在近600个观测量中寻找最佳参数有了理论框架和实验数据接下来的任务就是进行数值拟合寻找一组Wilson系数和味参数C1, C3, αℓ, βℓ, αq, βq使得理论预言与所有实验观测值的总体差异最小。我们面对的是一个包含593个观测量的庞大体系涵盖Higgs物理、电弱精密测量、粲物理、轻子味破坏过程以及各类B物理过程。这绝非简单的“试错”可以完成。3.1 拟合统计量与场景定义我们采用最小化χ²统计量作为拟合优度的标准 [ \chi^2 \sum_{i,j} (O_i^{\text{exp}} - O_i^{\text{th}}({C})) , \mathcal{C}^{-1}_{ij} , (O_j^{\text{exp}} - O_j^{\text{th}}({C})) ] 其中O_i^exp和O_i^th分别是第i个观测量的实验测量值和理论预言值依赖于参数{C}C_ij是包含实验与理论误差的总协方差矩阵。χ²值越小说明理论预言与实验符合得越好。为了系统性地探索新物理的可能模式我们定义了三个拟合场景场景 I最简模型假设新物理只通过C3影响第三代且C1 C3 ≡ C。味混合仅通过参数βq在第二、三代夸克之间发生。场景 II扩展味混合仍假设C1 C3 ≡ C但允许轻子部分αℓ, βℓ和夸克部分αq, βq都存在与第一、二代的混合。这曾用于解释早期的RK(∗)异常。场景 III独立系数这是我们分析的重点。放弃C1 C3的假设允许它们独立变化。同时鉴于RK(∗)已与SM一致我们设轻子味混合为零αℓ βℓ 0即新物理只与第三代轻子τ子和τ中微子耦合。夸克部分的混合仍通过βq进行。3.2 机器学习辅助的蒙特卡洛采样尽管参数空间只有3到6维但我们的似然函数由χ²定义地形非常复杂存在狭长的“峡谷”、近似简并的方向以及参数尺度差异大C ~ 0.1, βq ~ 1等问题。传统的网格扫描计算量巨大而标准的马尔可夫链蒙特卡洛方法在探索这种复杂地形时可能混合效率不佳容易陷入局部极值。为此我们引入了机器学习具体来说是梯度提升回归树算法。它的工作原理和优势如下生成训练集我们在参数空间内随机生成约10,500个点并为每个点精确计算其对应的χ²值即调用完整的smelli程序计算所有593个观测量。这构成了我们的“训练数据”。训练“代理模型”使用XGBoost算法训练一个回归树模型学习从输入参数C1, C3, βq...到输出χ²值的映射关系。这个模型本质上是在模拟整个复杂的物理计算和χ²构建过程。高效采样与验证一旦代理模型训练完成评估一个点的χ²值就从耗时的完整物理计算变成了几乎瞬间完成的模型预测。这使得我们可以快速生成数百万个样本点高分辨率地描绘出似然函数的等高线图置信区间。为何选择树模型而非神经网络这是一个重要的工程选择。神经网络虽然是强大的万能逼近器但它倾向于学习平滑的函数可能会抹平我们似然函数中存在的尖锐特征或狭窄峡谷。而回归树通过递归地将参数空间划分为矩形区域来学习天生擅长捕捉不连续或变化剧烈的边界。对于我们这种中低维度、训练数据量有限万级别且地形复杂的问题树模型通常更稳定、更容易训练且不易过拟合。我们通过交叉验证来确保代理模型的可靠性。如图8所示在预留的验证集上模型预测的χ²值与真实计算值之间的皮尔逊相关系数高达0.96且生成的χ²值分布与理论上的χ²分布吻合良好。这证明我们的ML模型足够精确可以信赖。3.3 SHAP值分析解读每个参数的“影响力”机器学习模型的一个常批评是“黑箱”特性。为了增强可解释性我们采用了SHAP分析。SHAP值基于合作博弈论能够量化每个输入特征即我们的拟合参数对最终输出即χ²值或等价的对数似然的贡献。图9的SHAP摘要图清晰地展示了我们场景III中三个参数的影响力排序C3影响力最大这完全符合物理预期。因为C3主导了b→cτν过程通过CVL ∝ C3 λ^q_23而RD(∗)是当前拟合中约束最强、偏离最显著的观测量。SHAP值分布最宽表明C3的微小变化会对整体似然产生巨大影响。C1影响力次之它主要受到b→sνν过程特别是新的B→Kνν数据的约束。其影响力显著但略低于C3部分原因是B→Kνν的测量误差目前仍比RD(∗)大。βq影响力较小但关键它控制着夸克味的混合强度λ^q_23。它的主要作用是将C3和C1的效应“传递”到涉及奇异夸克的衰变道中。其SHAP值分布相对集中说明在最佳值附近整体拟合对其变化相对不敏感但偏离太远仍会导致拟合变差。这种由SHAP分析揭示的参数重要性层次与我们从物理直觉出发的理解完全一致这交叉验证了我们的ML模型确实抓住了数据中真实的物理关联而不是在拟合噪声。4. 拟合结果与物理图像解读经过上述复杂的全局拟合流程我们得到了不同场景下的最佳拟合点及其误差。表1总结了主要结果而图7则直观地展示了关键观测量的拟合情况。4.1 核心发现为何“场景III”胜出对比三个场景结果一目了然场景I II在假设C1 C3的情况下虽然也能部分改善RD(∗)的拟合Δχ²_SM ~ 40-43但它们完全无法解释新的B→Kνν超出。如图7(b)所示它们对B→K(∗)νν分支比的预言几乎与标准模型无异。这是因为当C1 C3时贡献给b→sνν的系数C1 - C3 ≈ 0无法产生所需的增强效应。场景III当我们允许C1和C3独立变化时拟合质量得到了显著提升Δχ²_SM 46.66。其“拉力”达到6.25σ远优于前两个场景。关键的最佳拟合值为C1 ≈ -0.205C3 ≈ -0.12βq ≈ 0.64这个结果描绘出一幅清晰的物理图景C1和C3符号相同但大小不同C1的绝对值更大。这意味着对于b→cτν主要贡献来自C3通过CVL ≈ 0.089正值增强了τ子道的衰变率从而提高了RD(∗)的理论预言值与实验吻合。对于b→sνν贡献来自C1 - C3 ≈ -0.085负值。经过匹配和系数转换这对应于低能系数C^{33}_L ≈ 0.61正值从而显著提升了B→Kνν的分支比。对于b→sℓℓ−贡献来自C1 C3 ≈ -0.325。这个值虽然不为零但它主要通过重正化群效应以轻子味普适的方式贡献给C9系数Ce9 Cμ9 ≈ -0.58。这意味着它对电子道和μ子道的影响是相同的因此不影响RK和RK*比值它们的SM值约为1。然而它确实会整体压低B→K(∗)μμ−等过程的分支比这与某些q²区间内实验数据略低于SM趋势的现象并不矛盾甚至可能改善部分区间的拟合。4.2 参数空间的限制与相关性图4展示了场景III中参数两两之间的似然等高线图这些图由我们高效的ML采样方法生成。C1 vs C3 平面呈现一个倾斜的椭圆。这清晰地反映了两个主要约束的“拉扯”b→cτν主要由C3驱动要求C3为负值且幅度在一定范围内b→sνν由C1-C3驱动则要求两者之差为一个特定的负值。两者的组合将最佳拟合点限制在图中的狭窄区域内。C1/ C3 vs βq 平面βq与C1、C3均显示出相关性。这是因为在有效系数中它们总是以乘积形式出现如C3 λ^q_23。因此一个更大的|C3|可以搭配一个更小的|λ^q_23|即更小的βq产生相似的物理效应反之亦然。这导致了参数空间中存在一个延伸的“脊线”即简并方向。实操心得理解简并性这种参数简并性是有效场论分析中的常见挑战。它意味着仅凭现有数据我们无法唯一确定C3和βq的绝对值只能确定它们的乘积。要打破这种简并需要寻找对它们分别敏感的观测量。例如未来对涉及b→uτν过程如B→πτν的更精确测量可能对λ^q_13与βq和αq都有关施加新的约束从而帮助固定夸克味结构。4.3 对其他观测量的影响与“压力测试”一次负责任的全局拟合不能只看它改善了哪些异常还必须检查它是否在其他数百个已被精确测量的观测量中引入了不可接受的新偏差。图5的“拉力”图就是我们的全景健康检查。我们将所有593个观测量按照其在标准模型下的拉力即偏离实验值的标准差数从高到低排序。橙色线是SM的拉力蓝色线是我们的新物理场景III的拉力。显著改善可以看到原本在SM下拉力最大的几个观测量即偏离最显著的在场景III下得到了明显改善。这包括RℓD*改善约3.3σ、RℓD改善约1σ和BR(B→Kνν)改善约1.7σ。这正是我们引入新物理想要达到的目标。轻微变差或持平也有一些观测量在新物理场景下拟合稍差例如BR(B0→K0νν)变差约1σ。这并不意外正如我们在第2.2节末尾指出的仅靠左手流算符很难同时完美拟合B→Kνν和B→Kνν因为这两个过程对左右手耦合的响应不同。B0→K*0νν的数据目前还是上限未来更精确的测量将至关重要。基本无影响绝大部分观测量包括众多的电弱精密测量值、Z玻色子衰变宽度、粲强子衰变等在新物理场景下的拉力与SM下几乎重合。这说明我们引入的、针对第三代费米子的新物理耦合对其他扇区的影响非常微小成功通过了“压力测试”。4.4 与先前工作的对比实验进展如何改变了故事与我们的前一版工作相比本次分析最大的变化源于两个关键实验进展RK和RK*的“回归正常”LHCb和Belle II的最新测量显示这些比值与SM预言一致。这直接导致我们不再需要轻子味混合参数αℓ来产生电子与μ子的差异。如图6所示在场景II中αℓ的允许范围从之前集中在非零值变成了现在包含零点在内的一个区间。新物理现在被限制在只与第三代轻子τ和ντ耦合这大大简化了味结构。B→Kνν的“新超出”Belle II的新结果提供了独立且强烈的动机要求C1和C3必须独立。在旧框架C1C3下这个超出无法被解释。这些变化凸显了粒子物理研究的动态性理论解释必须紧跟实验步伐。一个能同时容纳旧异常和新测量、并能预见某些观测量回归正常的框架其可信度会大大增加。我们的场景III正是这样一个框架。5. 未来展望与对实验的建议基于目前的拟合结果我们可以对未来实验方向提出一些有指导意义的建议。1. 精确测量RJ/ψ当前b→cτν sector几乎完全由RD和RD*主导因为它们误差最小。RJ/ψ的测量误差很大见图7(a)中绿色误差棒导致其对拟合的约束力很弱。然而RJ/ψ涉及Bc→J/ψ衰变其强子矩阵元形状因子与B→D(∗)截然不同。因此对RJ/ψ的更精确测量能提供一个独立的检验帮助我们区分不同的新物理模型例如标量或张量算符对Bc到J/ψ的跃迁可能有不同于矢量算符的影响。LHCb和未来的高亮度对撞机实验在此方面潜力巨大。2. 区分B→Kν与B→K*νν我们的拟合显示当前数据下要同时完美描述K和K末态有一定张力。Belle II和未来实验对B→Kνν分支比的精确测量而不仅仅是上限至关重要。它将直接检验b→sνν过程中新物理的手征结构。如果新物理是纯左手的K和K*的分支比将遵循一个确定的比例关系如果有右手流贡献这个关系会被破坏。3. 寻找关联信号我们的EFT框架做出了许多“关联预言”。例如 *B→K(∗)ττ−如果新物理通过类似机制耦合到τ子对这个极其稀有的衰变模式可能会有可观测的增强。虽然本底极高但它是b→sττ过程的“黄金通道”。 *轻子味破坏过程如B→Kμe等。在我们的最佳拟合点由于设定了αℓβℓ0这些过程没有树图级的贡献预期分支比极小。但如果未来实验发现此类信号将直接否定我们目前的味结构假设指向更复杂的轻子味混合。 *电弱精密观测通过圈图效应我们的算符也会贡献到Z玻色子的衰变宽度或不对称性中。未来环形正负电子对撞机等“Z工厂”的极高精度测量将对此类新物理提供极强的间接约束。4. 直接寻找紫外完成模型EFT是低能下的有效描述。最终我们需要一个在更高能标TeV以上自洽的紫外完备理论来解释这些Wilson系数。可能的候选者包括轻子夸克复合模型、带有带电Higgs玻色子的双Higgs二重态模型、或瘦素夸克模型等。这些模型会预言新的粒子可以在高能对撞机如LHC、未来正负电子对撞机上直接产生。我们的全局拟合结果为这类模型的构建和搜索提供了具体的靶点和参数范围。个人体会与避坑指南从事这类全局拟合工作我深感数据管理和误差处理的重要性。将近600个观测量每个都有其实验误差、理论误差、以及不同观测量之间可能存在的相关性例如基于相同数据集或相同理论输入的不同测量。构建一个正确、完整的协方差矩阵是一项繁琐但绝不能出错的基础工作。我们使用了smelli和Flavio等专业工具包它们内置了最新的实验平均值和理论计算并处理了大部分相关性。但使用者仍需保持警惕特别是当引入自己计算的新观测量如我们手动添加的RJ/ψ时必须确保其误差和相关性被正确地纳入总χ²中。另一个深坑是重正化群演化的数值稳定性。不同算符的混合效应虽然微小但对于电弱精密观测等极其敏感的测量忽略它们或使用不精确的演化代码可能导致在看似无关的领域出现严重冲突。我们采用了匹配到NLO精度、并利用Wilson工具包进行数值演化的方案以确保一致性。最后对机器学习工具的应用要保持清醒。它极大地加速了探索但绝不能替代物理理解。SHAP分析等可解释性工具帮助我们验证模型学到了正确的物理关联。我们始终将ML找到的最佳拟合点代回完整的物理计算程序进行验证确保代理模型没有引入系统性偏差。在物理分析中工具再强大也永远是服务于物理洞察的助手。