1. 项目概述毫米波大规模MIMO中的混合均衡挑战与破局在5G及未来无线通信的演进蓝图中毫米波频段和大规模多输入多输出技术无疑是两颗最耀眼的明星。前者提供了近乎“无限”的频谱带宽后者则通过成百上千根天线开辟了巨大的空间维度。然而当我们将这两者结合试图构建一个支持多用户高速并行的上行链路系统时一个核心的矛盾便浮出水面极致的性能需求与严苛的硬件实现复杂度之间的矛盾。传统的全数字波束成形架构虽然性能最优但要求为每一根天线配备一条独立的、包含高精度模数转换器的完整射频链路。在毫米波频段这不仅意味着天文数字般的功耗和成本其物理尺寸和散热问题也几乎让大规模天线阵列的设想成为泡影。因此混合波束成形架构成为了业界公认的折中方案——将一部分波束成形通常是模拟的、宽带的、基于移相器的放在射频域另一部分通常是数字的、窄带的、更灵活的放在基带域。在混合架构的家族中子连接架构因其更低的硬件复杂度而备受青睐。它不再要求每个射频链连接所有天线而是只连接一个子集。这其中动态子连接架构又比固定子连接更具吸引力。想象一下固定子连接就像给每个射频链分配了一组固定的“手下”无论任务如何变化它只能指挥这几个人。而动态子连接则像一位灵活的指挥官可以根据当前“战场”信道条件的实时情况动态地为每个射频链挑选最合适的“精兵强将”天线子集。这种灵活性带来了显著的性能提升潜力但随之而来的是如何设计一个高效的算法来实时完成这个动态的“排兵布阵”并协同设计好数字部分的均衡器以应对多用户干扰和频率选择性衰落。本文要探讨的正是这个核心问题。我们针对上行链路宽带毫米波大规模MIMO系统提出了一种创新的混合多用户均衡器。其核心思想是最小化所有子载波上的均方误差总和并采用一种巧妙的两步法来分别攻克数字和模拟部分的优化难题。第一步我们基于迭代块判决反馈均衡原理推导出数字均衡器作为模拟均衡器函数的闭式解第二步在假设数字部分能完美消除干扰的前提下设计出带有动态天线映射的模拟均衡器。这种设计在硬件复杂度所需移相器数量大幅减少和信号处理性能之间取得了出色的平衡实测表明其性能可以无限逼近全连接架构远优于固定子连接方案。2. 系统模型与核心设计思路拆解2.1 上行链路系统框架从用户到基站我们考虑一个典型的多用户上行链路场景。假设有U个单天线用户终端共享相同的时频资源向一个配备Nrx根接收天线和Nrx^RF条射频链的基站发送数据。系统采用SC-FDMA作为多址接入技术这主要是为了降低用户发射信号的峰均比从而降低对用户终端功率放大器的要求这是一个非常实际的工程考量。在用户侧为了简单和低成本我们假设每个用户只配备一个简单的模拟预编码器。这个预编码器本质上是一个由移相器构成的向量其每个元素的模值固定通常为1/√Ntx只改变信号的相位。它不依赖于瞬时信道状态信息而是基于信道的长期统计特性如平均离开角来设计这极大地降低了用户端的复杂度和信道估计开销。用户的数据流经过DFT变换、子载波映射、添加循环前缀后再经过这个模拟预编码器从Ntx根天线发射出去。挑战主要集中在基站侧。基站采用我们提出的动态子连接混合架构。与全连接架构每条射频链通过移相器连接所有天线和固定子连接架构每条射频链固定连接一个天线子集不同动态子连接允许每条射频链在每一个传输时刻动态地选择连接到最优的R Nrx / Nrx^RF根天线上。这个“动态选择”的过程就是我们算法需要解决的核心优化问题之一。接收信号经过无线信道我们采用经典的毫米波簇状信道模型进行刻画后首先进入模拟均衡器。这个模拟均衡器同样由移相器网络构成完成宽带模拟波束成形。随后信号通过Nrx^RF条射频链下变频、数字化进入数字均衡器。我们的数字均衡器设计为一种非线性迭代结构借鉴了迭代块判决反馈均衡的思想包含前馈和反馈矩阵能够有效地在频域对多用户干扰和符号间干扰进行联合抑制。2.2 核心优化问题最小化均方误差总和我们设计的出发点是优化接收机的整体性能。一个最直观且有效的度量就是均方误差——我们希望恢复出的符号与原始发送符号之间的平均误差平方和尽可能小。由于我们处理的是宽带OFDM/SC-FDMA系统信号分布在多个子载波上因此自然的优化目标就是最小化所有S个有效子载波上的MSE之和。用数学公式表达我们的优化问题如下{ Wa, Wd,k^(i), Bd,k^(i) } arg min Σ_{k1}^{S} MSE_k^(i) 约束条件 1. Σ_{k1}^{S} diag( Wd,k^(i) (Wa)^H H_k ) S * I_U 功率约束避免估计偏差 2. Wa ∈ W_a 模拟均衡器硬件约束集合这里Wa是模拟均衡矩阵对所有子载波恒定Wd,k^(i)和Bd,k^(i)分别是第i次迭代、第k个子载波上的数字前馈和反馈矩阵。H_k是第k个子载波上的等效信道矩阵。第一个约束条件是一个非常重要的技术细节它确保了均衡器输出的符号在统计上是无偏的否则即使MSE小也可能存在固定的缩放偏差严重影响高阶调制下的解调性能。这个联合优化问题非常复杂因为模拟部分Wa和数字部分Wd,k^(i),Bd,k^(i)高度耦合并且Wa还受到硬件约束其元素模值只能为0或1/√R。直接求解几乎不可能。因此我们采用了两步解耦的策略这也是本文算法的精髓所在。注意这里“无偏估计”的约束至关重要。在实际通信系统中如果均衡器引入了一个固定的复数增益即使它对于所有符号都一样也会导致星座图旋转和缩放在非恒定模调制如QAM下直接导致误码率平台。因此许多实用的均衡算法如MMSE都会显式或隐式地加入此类约束。2.3 两步法设计哲学为何要解耦为什么选择两步法而不是尝试联合优化这背后有深刻的工程现实考量。迭代与硬件的矛盾我们期望的数字均衡器是迭代的IB-DFE这意味着第i次的输出会作为第i1次的输入。如果模拟部分Wa也参与迭代那就意味着我们需要在模拟域存储信号或者根据每次迭代的结果动态地调整移相器的值。前者在模拟域实现存储和反馈环路极其困难且昂贵后者要求移相器能以符号速率动态切换这远远超出了当前射频硬件的能力移相器切换速度通常在微秒量级。因此一个合理的假设是模拟均衡器Wa在数字迭代过程中保持不变它只依赖于信道的长期或宽带特性。问题分解的可行性我们观察到当固定模拟部分Wa时数字部分Wd,k^(i)和Bd,k^(i)的优化问题可以转化为一个经典的、有闭式解的最小化加权误差问题。这个解是Wa的函数。反过来如果我们能找到一个好的Wa使得由它和最优数字部分构成的混合均衡器尽可能逼近一个理想的“全数字”均衡器那么整体性能就有保障。这就引导我们走向两步法第一步数字部分设计在给定模拟均衡器Wa的条件下推导出使总MSE最小的数字前馈Wd,k^(i)和反馈Bd,k^(i)矩阵的闭式迭代解。第二步模拟部分设计在假设数字部分能够完美工作即经过足够多次迭代后反馈可靠性极高的条件下设计Wa使得混合均衡器与全数字均衡器之间的加权误差最小。这一步同时要解决动态天线映射的问题——即决定哪R根天线连接到哪条射频链。这种解耦大大降低了算法复杂度使其具备了实际实现的潜力。接下来我们将深入这两步的细节。3. 数字迭代均衡器闭式解与实现细节3.1 从MSE推导到反馈矩阵首先我们展开第k个子载波、第i次迭代的均方误差表达式。经过一系列推导详见原文附录MSE可以表示为三部分之和由残留干扰引起的误差。由反馈环路中不可靠的先前判决引起的误差。由放大后的噪声引起的误差。其中一个关键变量是块可靠性度量矩阵Ψ^(i)。这是一个对角矩阵其第u个对角元素ρ_u^(i)代表了第u个用户数据块在第i次迭代中的平均可靠性取值范围在[0,1]之间。在第一次迭代i1时没有先验信息Ψ^(0)0此时我们的迭代均衡器退化为经典的线性MMSE均衡器。随着迭代进行判决越来越可靠ρ_u^(i)会逐渐趋近于1。反馈矩阵Bd,k^(i)的优化相对直接因为它不受模拟部分硬件约束的影响。通过求解无约束优化问题我们得到其最优解为Bd,k^(i) ( Wd,k^(i) (Wa)^H H_k - I_U ) (Ψ^(i-1))^H这个形式非常直观。Wd,k^(i) (Wa)^H H_k可以看作是当前混合均衡器对信道的响应减去单位矩阵I_U再乘以上次迭代的可靠性度量。它本质上是在抵消当前迭代中由前馈滤波器引入的、关于自身符号的干扰而可靠性度量Ψ^(i-1)则控制了这种抵消的“力度”——判决越可靠抵消得越彻底。3.2 前馈矩阵的求解与功率约束将最优反馈矩阵代入MSE表达式后优化问题神奇地简化了。最小化MSE等价于最小化一个加权误差即我们的混合均衡器Wd,k^(i)(Wa)^H与一个虚拟的、非归一化的全数字均衡器W_fd,k^(i)之间的Frobenius范数距离。这个全数字均衡器是性能的上界但我们的混合架构无法实现它只能去逼近。此时的优化目标变为寻找Wd,k^(i)以最小化这个加权误差同时满足之前提到的无偏估计功率约束。这是一个带约束的二次优化问题可以通过拉格朗日乘子法求解。最终我们得到数字前馈矩阵的闭式解Wd,k^(i)[Wa] Λ_d H_k^H Wa ( R_d,k^(i-1) )^{-1}其中R_d,k^(i-1) (Wa)^H \tilde{R}_k^(i-1) Wa可以看作是经过模拟合并后的等效噪声加干扰协方差矩阵。Λ_d是一个对角矩阵其作用正是为了强制满足那个功率约束Σ diag(...) S I_U。它像一个自动增益控制器确保每个用户数据流的输出功率被正确地归一化。这个解的美妙之处在于它清晰地展示了数字部分如何依赖于模拟部分Wa。Wa首先对接收信号和等效信道H_k进行了一次模拟域的“预处理”Wd,k则在这个预处理后的信号空间上进行更精细的数字均衡。3.3 迭代算法的执行流程基于以上推导数字均衡器的迭代算法可以清晰地描述如下算法1数字迭代均衡器计算流程初始化设置迭代索引i1块可靠性矩阵Ψ^(0) 0。这意味着第一次迭代没有反馈信息可用。计算等效矩阵对于所有子载波k1:S根据公式(15)计算\tilde{R}_k^(0)。此时因为Ψ^(0)0\tilde{R}_k^(0) H_k H_k^H (σ_n^2/σ_u^2) I这就是经典的MMSE均衡器中的核心矩阵。迭代开始 a.更新数字前馈矩阵使用公式(17)和(18)基于当前的模拟矩阵Wa和上一次的可靠性Ψ^(i-1)计算本次迭代的所有Wd,k^(i)。 b.更新数字反馈矩阵使用公式(12)基于刚计算出的Wd,k^(i)和Ψ^(i-1)计算Bd,k^(i)。 c.均衡与判决对于每个子载波使用公式(3)进行均衡c̃_k^(i) Wd,k^(i) (Wa)^H y_k - Bd,k^(i) ĉ_k^(i-1)。然后将c̃_k^(i)变换回时域进行解调、硬判决得到新的符号估计ŝ_t^(i)。 d.更新可靠性度量将ŝ_t^(i)再变换回频域得到ĉ_k^(i)并根据ĉ_k^(i)与c̃_k^(i)之间的统计关系估算出新的块可靠性度量对角矩阵Ψ^(i)。对于QPSKρ_u^(i)可近似为符号估计的实部或虚部与均衡器输出之间的相关系数对于高阶QAM计算方法更复杂一些但原理相通。迭代终止判断是否达到预设的最大迭代次数或者Ψ^(i)的变化小于某个阈值意味着性能提升已很小。若未终止则令ii1返回步骤3a。实操心得在实际仿真或实现中Ψ^(i)的估计需要特别注意。一种稳健的方法是使用一个较长的训练序列或导频段来初始化和校准ρ的估计值。直接使用判决后的数据符号进行估计在低信噪比下可能不准确会导致反馈环路不稳定。通常迭代2-4次就能获得绝大部分性能增益。4. 模拟均衡器与动态天线映射算法这是本文最具创新性的部分。数字部分可以迭代优化但模拟部分Wa由于硬件限制必须是固定的。我们的目标是为动态子连接架构找到一个最优的Wa。Wa是一个Nrx × Nrx^RF的矩阵其每一列w_a,r对应第r条射频链的模拟加权向量。在动态子连接约束下w_a,r是一个稀疏向量只有R个非零元素对应连接到的R根天线且每个非零元素的模值固定为1/√R代表一个移相器只能改变相位。4.1 问题转化从联合优化到序列贪婪选择直接优化整个Wa矩阵是一个组合爆炸问题。我们的策略是采用序列贪婪算法逐条射频链、逐个天线地进行优化。其核心思想是当我们已经为前r-1条射频链选好了天线和移相器即已知Wa,r-1现在要为第r条链做选择时我们希望新增的w_a,r能最大程度地弥补当前混合均衡器W_ad,k,r-1与理想全数字均衡器W_fd,k之间的差距。这个“差距”被定义为残差矩阵W_res,k,r-1 W_fd,k - W_ad,k,r-1。在优化第r条链时我们假设数字部分已经达到了理想状态即经过充分迭代后Ψ ≈ I此时理想的全数字均衡器退化为简单的匹配滤波器W_fd,k H_k^H。这个假设简化了问题使得模拟部分的设计可以独立于迭代过程。经过一系列推导见原文公式(23)-(27)为第r条射频链选择模拟向量w_a,r的优化问题可以转化为一个更直观的形式w_a,r arg max Σ_{k1}^{S} || W_res,k,r-1 w_a,r ||^2 / || w_a,r ||^2 约束条件 w_a,r ∈ F_a,r其中F_a,r是所有可行的、满足动态子连接约束的向量集合。这个目标函数的物理意义非常清晰我们希望找到这样一个天线子集和对应的相位配置w_a,r使得经过当前残差矩阵W_res,k,r-1“过滤”后在所有子载波上获得的信号能量之和最大。换句话说我们选择的天线组合应该最能捕获那些尚未被前r-1条射频链有效接收的信号分量。4.2 动态天线映射的逐次选择算法由于w_a,r是稀疏的且非零元素模值固定其相位只能在有限集合中量化例如Q-bit相位量化共有2^Q种可能的相位值。因此F_a,r是一个有限的码本。但即使如此其规模也巨大无比我们需要从Nrx根天线中选出R根并为这R根天线中的每一根从2^Q个相位中选择一个。总组合数为C(Nrx, R) * (2^Q)^R。对于Nrx64, R16, Q4的情况这是一个天文数字无法进行穷举搜索。因此我们进一步采用逐次天线选择策略来降低复杂度初始化残差矩阵W_res,k,0 H_k^H对于所有k已选天线集合为空。对于每一条射频链 r 1 到 Nrx^RF a. 初始化该链的模拟向量w_a,r为零向量。 b.对于该链要连接的每一根天线共R根 i. 遍历所有尚未被任何射频链选中的天线n。 ii. 对于天线n遍历所有可能的量化相位值θ共2^Q个。 iii. 构造一个临时向量v其仅在位置n处有非零元素(1/√R) * e^(jθ)并将此向量加到w_a,r的当前值上注意w_a,r在每一步选择中都在累积。 iv. 计算使用此临时w_a,r下的目标函数值f Σ_k || W_res,k,r-1 * (w_a,r_current v) ||^2 / || w_a,r_current v ||^2。 v. 记录使f最大的天线索引n*和相位值θ*。 c. 将天线n*标记为已选并以相位θ*更新w_a,r在对应位置n*处设置元素值。 d. 根据更新后的w_a,r利用公式(24)计算对应的数字权重w_d,k,r并更新混合均衡器W_ad,k,r W_ad,k,r-1 w_d,k,r (w_a,r)^H。 e. 更新残差矩阵W_res,k,r W_fd,k - W_ad,k,r。输出最终得到的模拟矩阵Wa [w_a,1, w_a,2, ..., w_a,Nrx^RF]。这个算法是一个贪婪算法它在每一步都为当前射频链选择“当下看起来最好”的天线和相位同时考虑到了之前已做的选择。虽然不能保证是全局最优但其复杂度从指数级降低到了O(Nrx^RF * R * Nrx * 2^Q * S)变得可以处理并且仿真表明其性能非常接近穷举搜索的上界。注意事项相位量化比特数Q是一个重要的折中参数。Q越大相位调整越精细性能越好但算法搜索复杂度和移相器控制复杂度也越高。通常Q24种相位或Q38种相位在性能和复杂度之间取得了较好的平衡。在实际硬件中移相器本身也存在精度误差和插入损耗需要在算法设计中予以考虑。5. 性能分析与复杂度讨论5.1 性能优势动态 vs. 固定 vs. 全连接为了验证所提算法的有效性我们通常通过系统级仿真进行评估。仿真的关键参数包括载波频率如28 GHz或73 GHz、天线阵列规模如基站64或128根天线用户4或8根天线、信道模型3GPP TR 38.901或本文采用的簇状模型、用户数、调制编码方式等。性能评估的核心指标是误码率BER或误块率BLER随信噪比SNR变化的曲线。通过大量的蒙特卡洛仿真我们可以得到以下典型结论逼近全连接性能所提出的动态子连接混合均衡器其性能曲线与全数字均衡器性能上界以及全连接混合架构需要Nrx * Nrx^RF个移相器的曲线非常接近。在中等至高信噪比区域其性能损失通常小于1 dB。这证明了动态映射策略的有效性——它通过智能的天线选择几乎捕捉到了全连接架构所能利用的所有有效信道维度。显著优于固定子连接与固定子连接架构相比动态子连接带来了显著的性能增益。这个增益在用户数较多、信道空间相关性较强时尤为明显。因为固定子连接可能将某条射频链永久地连接到一个信道条件很差的子阵列上而动态架构可以避免这一点始终为每条链分配当前信道条件下最有利的天线。迭代增益IB-DFE结构的数字均衡器带来了明显的迭代增益。从第一次迭代线性MMSE到第二次、第三次迭代BER性能有大幅提升。通常2-3次迭代后性能就趋于稳定。对相位量化鲁棒算法对移相器的相位量化不敏感。即使使用低精度如2-bit移相器性能下降也相对有限这降低了硬件实现的成本和功耗。5.2 复杂度分析算法与硬件开销所提方案的吸引力不仅在于性能更在于其实现的可行性。我们从算法计算复杂度和硬件复杂度两方面分析算法计算复杂度数字部分主要开销在于每次迭代中对每个子载波计算矩阵求逆(R_d,k^(i-1))^{-1}。由于R_d,k^(i-1)是Nrx^RF × Nrx^RF的矩阵且Nrx^RF通常远小于用户数U和天线数Nrx例如Nrx64, U8, Nrx^RF16这个求逆的复杂度是O((Nrx^RF)^3)是可以接受的。此外还需要计算Λ_d和更新Ψ但这些都是标量或对角矩阵运算复杂度较低。模拟部分动态映射这是复杂度主要来源。如前所述其复杂度为O(Nrx^RF * R * N_unselected * 2^Q * S * U^2)。其中N_unselected是未被选中的天线数在算法初期较大。虽然看起来复杂但请注意这个过程不需要在线实时运行。它依赖于信道矩阵H_k而H_k的变化速度远慢于符号速率。因此这个算法可以以“信道相干时间”为周期来运行例如每几毫秒一次计算结果即Wa矩阵在一段时间内保持不变。这大大缓解了实时计算压力。可以采用更高效的搜索策略例如基于信道协方差矩阵特征向量的预筛选来进一步降低搜索空间。硬件复杂度移相器数量这是混合架构相比全数字架构最大的优势所在。全连接需要Nrx * Nrx^RF个移相器而动态子连接仅需要Nrx个。以Nrx64, Nrx^RF16为例全连接需要1024个动态子连接仅需64个减少了94%这直接转化为巨大的成本、功耗和电路板面积节省。射频链数量与全数字架构需要Nrx条射频链相比混合架构仅需Nrx^RF条Nrx^RF通常等于或略大于用户数U。这节省了昂贵的ADC/DAC、混频器、滤波器等组件。数字处理单元数字部分需要处理Nrx^RF路信号而非Nrx路因此基带处理芯片的规模和功耗也得以大幅降低。5.3 常见问题与工程实现考量在实际系统设计和仿真中会遇到一些典型问题问题1信道估计如何实现混合架构下的信道估计是一个挑战。Wa是时变的虽然更新慢且作用于射频域使得我们无法直接观测到Nrx维的原始信道H_k。常见的解决方案是采用基于导频的两阶段估计模拟域波束训练使用一组预定义的、宽波束的模拟加权向量码本轮流扫描空间用户发送导频基站寻找使接收功率最大的几个波束方向。这个过程确定了Wa的粗略结构即哪些天线子集被激活。数字域精估计在固定Wa后等效信道变为H_eq,k (Wa)^H H_k其维度是Nrx^RF × U。此时可以使用传统的导频序列在降维后的数字域进行精确的信道估计。导频开销与Nrx^RF和U有关而非巨大的Nrx。问题2动态映射的切换时延和相位噪声影响切换时延移相器和天线开关的切换需要时间通常在几十到几百纳秒。这要求Wa的更新周期由信道相干时间决定远大于切换时延。在毫米波频段用户移动可能导致信道快速变化需要仔细评估。对于中低速场景如室内热点、固定无线接入这通常不是问题。相位噪声毫米波本振的相位噪声更严重会影响移相器的精度和相干接收性能。算法中可以通过在目标函数中引入对相位误差稳健的度量或在数字均衡器中增加相位跟踪环路来部分补偿。问题3如何扩展到更广泛的场景下行链路本文聚焦上行。扩展到下行链路时问题变为混合预编码设计。虽然优化目标如和速率最大化不同但动态子连接的思想和两步法先设计数字预编码再设计模拟预编码/天线映射的框架是相似的。宽带信道中的波束斜视问题在超大带宽下同一个模拟波束Wa在不同子载波上可能指向略有不同的空间方向。本文算法在第二步设计Wa时通过最大化所有子载波上的加权能量和公式(27)中的求和Σ_k implicitly地考虑了宽带效应寻求一个对所有子载波都“不太差”的折中波束这有助于缓解波束斜视的影响。问题4算法初始化与收敛性数字迭代均衡器需要初始的Ψ^(0)我们设为零矩阵这对应于线性MMSE初始化是稳健的。模拟部分动态映射算法是贪婪的每一步都最大化当前目标函数因此保证收敛到一个局部最优解。虽然非全局最优但仿真表明其性能已足够好。可以通过多次随机初始化并选择最佳结果来进一步提升性能但会牺牲复杂度。毫米波大规模MIMO的动态子连接混合架构以其在性能和复杂度间的卓越平衡成为未来无线通信系统特别是基站侧接收机的有力候选方案。本文提出的基于最小化总MSE的两步式混合多用户均衡器设计不仅提供了清晰的数学框架和高效的算法更重要的是它打通了从理论模型到工程实现的路径。动态天线映射的贪婪算法巧妙地将一个组合优化问题转化为可实现的序列选择而数字迭代均衡器则确保了最终接收性能。在实际部署中工程师需要根据具体的硬件能力移相器精度、切换速度、信道环境相干时间、角度扩展和系统需求用户数、带宽对算法参数如相位量化比特数Q、迭代次数进行细致的调整与优化。