Chiplet技术：从异构集成到先进封装，重塑后摩尔时代芯片设计

张

张建站

2026/5/12 8:09:59

10分钟阅读

1. 从“巨无霸”到“乐高积木”Chiplet技术演进的核心逻辑在半导体行业摸爬滚打了十几年亲眼见证了芯片设计从追求单一、庞大的“巨无霸”系统级芯片逐渐转向今天这个被频繁讨论的“乐高积木”式Chiplet芯粒时代。很多人把Chiplet看作一个突然爆火的新概念但在我看来这更像是一场酝酿了数十年的技术思潮的必然结果。它的核心驱动力从来不是某个天才的灵光一现而是半导体产业在物理极限、经济成本和市场需求三重压力下被迫寻找的“最优解”。简单来说Chiplet就是把一个原本要集成在单一硅片上的复杂系统拆分成多个功能、工艺甚至材质都可能不同的小芯片然后通过先进的封装技术把它们像拼乐高一样集成在一个封装体内。这听起来似乎只是封装形式的改变但其背后的逻辑深刻得多。最直接的动力就是“摩尔定律”的放缓与“登纳德缩放比例定律”的终结。当晶体管尺寸微缩带来的性能提升和成本下降越来越困难时继续追求把所有功能都塞进一颗采用最先进工艺的大芯片不仅良率会急剧下降导致成本飙升而且功耗和散热也会成为无法逾越的障碍。Chiplet提供了一条出路让CPU核心、GPU、高速I/O、模拟射频、存储器等模块各自采用最适合的工艺节点去制造最后再“组装”起来。比如对性能密度要求极高的计算核心用5nm对成本敏感的I/O部分用12nm而模拟电路可能用28nm更合适。这种“因材施教”的策略是应对后摩尔时代挑战最务实的选择。注意Chiplet并非要完全取代SoC。对于量极大、对尺寸和功耗有极致要求的移动设备高度集成的SoC依然是王者。Chiplet的优势在于高性能计算、数据中心、网络设备等对算力、带宽和集成多样性有极高要求且对封装尺寸相对不那么敏感的领域。2. 前世今生Chiplet概念的技术谱系追溯要真正理解Chiplet不能只看现在还得回头看看它的“家谱”。很多人认为Chiplet是近五年才出现的新事物但如果你翻看半导体技术史会发现它的思想脉络早已有之。这就像汽车不是突然从马车变来的中间经历了蒸汽机车、内燃机原型等多个阶段。2.1 混合集成电路与多芯片模块思想的萌芽早在1960-1970年代混合集成电路就已经是“异构集成”的雏形。它把多个独立的半导体芯片那时可能还是晶体管或简单的IC、厚薄膜电阻、电容等无源元件通过线焊或烧结的方式安装并互连到一块陶瓷或玻璃基板上形成一个功能模块。这本质上就是把不同工艺、不同材料的元件集成在一起解决当时单片集成电路能力不足的问题。我接触过的一些老工程师至今还对调试这些“飞线”密布的混合电路板记忆犹新。虽然昂贵且复杂但它证明了将不同技术路径的组件物理上结合在一起的可行性。到了1980-1990年代多芯片模块成为了主流尤其是在IBM的大型机、DEC的小型机中。MCM可以看作是混合集成电路的“硅基”升级版它把多个已经封装或未封装的半导体裸片高密度地安装在一块共同的高性能布线基板如氧化铝、玻璃陶瓷上。IBM的System/390和后来的z系列服务器中的处理器模块就是经典的MCM案例。MCM大幅缩短了芯片间的互连距离提升了信号速度和系统性能但成本依然居高不下属于“贵族技术”仅限于高端市场。2.2 系统级封装与2.5D/3D集成关键的桥梁进入21世纪随着消费电子和移动通信的爆炸式增长系统级封装变得无处不在。SiP的定义比MCM更宽泛它旨在将一个或多个IC芯片、无源元件甚至天线、传感器等采用任何可行的组装和互连技术封装成一个可以提供完整系统功能的单元。你手机里的射频前端模块很可能就是一个典型的SiP它集成了GaAs功放、硅基CMOS控制芯片和一堆电感电容。SiP的成功为Chiplet铺平了道路因为它证明了在封装层面进行复杂系统集成的商业价值和技术可行性。而真正让Chiplet从概念走向现实的“临门一脚”是2.5D和3D集成技术的成熟特别是硅通孔和硅中介层。TSV允许在芯片内部垂直打孔实现电气连接使得芯片可以像盖楼一样堆叠起来这就是3D IC。而2.5D集成则是将多个芯片并排放在一块拥有超精细布线层的硅中介层上中介层再通过封装基板与外部连接。这项技术最初的大规模应用就是大家熟知的高带宽内存。HBM将多个DRAM裸片通过TSV垂直堆叠并与一个逻辑控制芯片一起通过硅中介层与GPU或CPU相连提供了远超传统DDR内存的带宽。HBM的成功堪称Chiplet技术最好的“广告”它向业界展示了先进封装能带来何等巨大的性能红利。3. 核心玩家与关键技术路径英特尔、AMD与台积电的战场当技术趋势明朗后产业巨头们便纷纷下场根据自己的技术积累和商业策略开辟了不同的Chiplet实现路径。目前市场上形成了几个鲜明的技术流派。3.1 英特尔的EMIB与Foveros嵌入式桥接与3D堆叠英特尔是Chiplet理念的长期倡导者和实践者。其嵌入式多芯片互连桥技术可以理解为在有机封装基板中“嵌入”了一小块硅桥。这块硅桥拥有超高的布线密度专门用于连接两个相邻的、需要极高互连带宽的芯片比如CPU和GPU核芯。EMIB的精妙之处在于它只在需要的地方使用昂贵的硅互连其他地方仍用成本较低的常规封装基板实现了性能与成本的平衡。英特尔早期的Kaby Lake-G处理器集成AMD GPU就采用了EMIB技术。而Foveros则代表了英特尔在3D堆叠方向的野心。它允许将不同工艺节点的芯片进行面对面或背对背的3D堆叠并通过微凸块和TSV-like技术实现数千甚至上万条垂直互连。最新的Meteor Lake处理器就是Foveros技术的集大成者它将计算模块、SoC模块、GPU模块和IO模块以3D形式集成堪称一次复杂的Chiplet架构实践。3.2 AMD的Infinity Fabric与基板级集成AMD的EPYC霄龙和Ryzen锐龙处理器是Chiplet商业模式上最成功的典范。其核心在于将CPU核心CCD采用先进工艺和I/O核心cIOD采用成熟工艺分离成独立的Chiplet。多个CCD Chiplet与一个cIOD Chiplet通过其私有的Infinity Fabric互连总线在封装基板上进行连接。AMD的成功关键在于其IF总线提供了足够高的芯片间带宽和低延迟使得多个Chiplet能像一个统一的系统那样工作。同时这种架构让AMD可以灵活组合CCD数量快速衍生出不同核心数的产品大幅降低了设计成本和周期。3.3 台积电的CoWoS与InFO代工厂的封装革命作为全球最大的晶圆代工厂台积电从另一个维度推动了Chiplet生态。其CoWoS技术是2.5D集成的行业标杆它将芯片集成在硅中介层上再封装到基板上。几乎所有需要集成HBM的高端AI芯片如NVIDIA的A100/H100都依赖于CoWoS。而InFO系列技术则面向移动和HPC市场提供了更薄、更紧凑的晶圆级封装方案。台积电通过将先进封装变为其代工服务的标准选项使得无晶圆芯片公司也能轻松采用Chiplet设计极大地降低了技术门槛。实操心得选择Chiplet路径时不仅要看性能参数更要评估整个供应链的成熟度和成本。英特尔的方案高度集成但相对封闭AMD的方案证明了标准封装基板上实现高性能Chiplet的可行性生态更开放而依赖台积电CoWoS的方案性能顶尖但成本和产能是需要考虑的风险点。4. Chiplet设计落地的核心挑战与解决思路将Chiplet从美好的蓝图变成可量产的产品工程师团队需要跨越一系列艰巨的挑战。这不仅仅是把几个芯片摆在一起那么简单而是一次从架构到物理实现的系统性重构。4.1 互连与接口标准化Chiplet的“通用语言”这是Chiplet生态发展的最大瓶颈。如果每个公司的Chiplet都使用私有的接口协议那么跨厂商的“乐高式”组合就无从谈起。近年来行业在这方面取得了关键进展。UCIe联盟的成立具有里程碑意义。UCIe旨在定义一个覆盖物理层、链路层到协议层的完整Chiplet间互连开放标准。其物理层标准定义了包括标准封装类似AMD的方案和先进封装类似EMIB/CoWoS下的电气特性、引脚定义等。采用UCIe后不同公司设计的Chiplet理论上可以相互通信这为开放的Chiplet市场奠定了基础。除了UCIe还有一些针对特定场景的接口如开放的BoW以及CXL、PCIe等更上层的缓存一致性互连协议它们共同构成了Chiplet的通信“栈”。4.2 系统级设计与测试范式的转变传统的SoC设计是一体化的所有模块共享同一时钟域、电源域和测试架构。而Chiplet设计是分布式的每个Chiplet可能来自不同供应商有独立的电源、时钟和测试接口。这对系统架构师提出了全新要求功耗与散热协同设计必须从封装层面进行整体功耗建模和散热仿真热点可能出现在某个高性能Chiplet下方需要精细的散热设计。信号与电源完整性Chiplet间的高速信号如SerDes穿越封装基板或中介层其损耗、串扰比片上互连严重得多。必须进行从芯片到封装的协同SI/PI分析。可测试性设计每个Chiplet需要具备独立的可测试性同时在封装后还要进行系统级测试。如何访问深埋在封装内部的Chiplet的测试接口是巨大的挑战。通常需要设计专用的测试总线或利用功能接口进行测试。4.3 供应链与可靠性管理Chiplet将传统的垂直供应链变成了复杂的网状供应链。一颗最终产品可能包含来自A公司的计算Chiplet、B公司的I/O Chiplet、台积电或三星制造的芯片、以及日月光或安靠进行的封装测试。如何管理多来源芯片的质量、保证供货周期同步、明确责任划分特别是当失效发生时是哪个Chiplet或互连的问题都变得异常复杂。此外由于不同材质的芯片硅、GaAs等热膨胀系数不同在温度循环下封装内部的机械应力会导致长期可靠性风险需要进行严格的老化测试和寿命评估。5. 实战推演一个假设性Chiplet AI加速器设计流程为了更具体地说明我们不妨设想一个项目设计一款面向边缘服务器的AI推理加速器采用Chiplet架构。假设核心需求是高性能、可扩展的算力并集成高带宽内存。5.1 架构定义与Chiplet划分首先进行架构权衡。我们决定采用“1个中央控制单元 N个可扩展的AI计算单元高速HBM内存”的架构。中央控制单元采用成熟工艺如12nm包含通用CPU核心、PCIe控制器、DDR内存控制器、系统管理单元等。这部分对工艺不敏感但对I/O种类和可靠性要求高适合单独做成一个I/O Chiplet。AI计算单元采用最先进工艺如5nm每个单元包含专用矩阵计算引擎和本地SRAM。根据性能需求我们可以决定在封装中放置4个、8个甚至16个完全相同的计算Chiplet。这是典型的同构Chiplet扩展。HBM内存堆栈直接采购符合JEDEC标准的HBM3 Chiplet通常包含一个逻辑控制芯片和多个DRAM堆叠芯片。5.2 互连与封装选型接下来是关键决策如何连接这些Chiplet互连标准为了未来可能的生态兼容我们决定在计算Chiplet与控制Chiplet之间采用UCIe标准接口。内部总线则采用基于AXI或CHI的片上网络协议。封装技术选型由于需要集成HBM2.5D集成几乎是唯一选择。我们评估两种主流方案方案ACoWoS将所有Chiplet和HBM堆栈都集成在一个大型硅中介层上。优势互连密度最高性能最好信号完整性最优。劣势成本极高中介层尺寸受限于光罩尺寸设计周期长。方案B基板集成局部硅桥采用高性能有机封装基板在计算Chiplet与HBM之间、计算Chiplet与控制Chiplet之间使用类似EMIB的硅桥进行高密度连接。优势成本显著低于全尺寸中介层设计更灵活。劣势性能略低于CoWoS布线复杂度从中介层转移到了封装基板设计。经过性能、成本、上市时间的权衡我们选择方案B。它能在满足HBM带宽需求通过专用硅桥的同时控制整体成本。5.3 设计实现与协同仿真进入具体设计阶段工作流程变得并行且交织Chiplet物理设计三个团队并行工作。计算Chiplet团队专注于5nm下的高性能物理实现和时序收敛控制Chiplet团队处理多电压域和复杂I/O封装团队则开始设计基板和硅桥的布局布线。系统级协同设计使用先进的电子设计自动化工具进行早期系统级探索。这包括架构性能仿真用虚拟原型评估不同Chiplet数量、互连带宽下的整体算力和能效。热仿真建立包含所有Chiplet、硅桥、基板的详细3D热模型预测最坏工况下的结温指导散热片和风道设计。SI/PI协同分析将Chiplet的IO缓冲器模型、封装互连的S参数模型、电源分配网络模型结合起来进行全路径的信号和电源噪声仿真确保信号眼图满足要求电源噪声在容限之内。测试策略制定为每个Chiplet设计完整的DFT结构扫描链、内存BIST等。规划封装后的测试流程先对单个Chiplet进行探针测试封装后进行边界扫描测试、高速接口环回测试最后进行系统级功能测试。6. 常见陷阱与避坑指南来自前线的经验在实际项目中踩坑是难免的。以下是一些在Chiplet设计中容易忽略却至关重要的问题。6.1 时钟与电源域管理的复杂性在SoC中全局时钟树和电源网格是统一规划的。但在Chiplet系统中每个Chiplet可能有自己独立的PLL和时钟网络跨Chiplet的同步通信会引入巨大的时钟偏斜和抖动。必须将时钟架构作为首要设计约束。常见的做法是选择一个主Chiplet作为时钟源通过差分对或专用低抖动链路将参考时钟分发到其他Chiplet各Chiplet再用本地PLL生成所需时钟。电源管理同样复杂需要协调多个Chiplet的上下电序列、睡眠状态防止因时序不当导致闩锁或通信失败。6.2 封装引起的信号完整性噩梦很多团队在芯片设计阶段对SI考虑不足认为那是封装工程师的事。这是一个致命错误。Chiplet间的高速串行链路如112G SerDes对插入损耗、回波损耗、串扰极其敏感。必须在芯片设计初期就与封装团队确定互连拓扑、封装材料特性Dk/Df值、布线长度和间距约束。最好能建立一个包含芯片IO、封装通道、接收端模型的联合仿真环境在芯片tape-out前就完成通道的初步验证。6.3 热密度与机械应力的双重夹击多个高性能Chiplet集中在狭小空间会产生巨大的热流密度。如果散热设计不当局部过热会导致芯片降频甚至失效。必须进行详细的计算流体动力学仿真不仅要看平均温度更要关注“热点”。此外不同材料硅芯片、硅桥、有机基板、底部填充胶、散热盖的热膨胀系数不匹配会在温度循环中产生周期性应力长期可能导致焊点疲劳开裂或硅片破裂。需要在封装材料选型和结构设计上如使用柔性底部填充胶、优化凸块布局提前规避。6.4 成本模型的误判Chiplet的吸引力之一在于潜在的成本优势但这需要精细的核算。一个简单的成本对比模型可能只考虑大芯片成本先进工艺晶圆成本 * 大芯片面积 * 良率损失Chiplet成本 Σ(各工艺晶圆成本 * 小芯片面积 * 更高良率) 先进封装附加成本。然而这个模型忽略了测试成本倍增每个Chiplet需要单独测试封装后还需系统测试总测试成本可能远超单一芯片。中介层/硅桥成本2.5D集成中的硅中介层或桥接器本身也是采用半导体工艺制造的面积大、成本不菲。额外的设计、验证和软件成本Chiplet架构带来的设计复杂度提升需要更强大的EDA工具和更长的验证周期这部分人力与时间成本必须计入。6.5 生态系统与长期支持的脆弱性如果你设计了一个依赖第三方Chiplet比如专用加速器或高速SerDes Chiplet的产品那么你就将部分命运交给了供应商。你需要评估该供应商的产能是否稳定技术路线图是否与你的产品规划匹配如果未来该Chiplet停产或接口升级你的产品如何维护和迭代因此在项目启动时签订长期供货与技术支援协议、甚至考虑开发第二供应商或备份方案是降低供应链风险的必要措施。Chiplet技术正在重塑半导体行业的游戏规则它将设计从单一的硅片解放到了整个封装系统。这场变革不仅仅是技术的升级更是设计方法论、供应链管理和商业模式的全面革新。对于工程师而言拥抱Chiplet意味着需要具备更宽广的系统视野精通从架构到封装的跨领域知识。虽然前路挑战重重但这条道路无疑是应对后摩尔时代继续驱动计算性能向前发展的最有力引擎之一。

深入理解Linux性能分析：从top命令到eBPF内核追踪

测试工程师为什么必须懂性能分析在软件测试领域，我们习惯用功能正确性衡量质量，却常常忽略“性能正确性”——系统在负载下是否依然保持可接受的响应时间、吞吐量和资源消耗。当被测服务出现间歇性超时、CPU飙升或内存泄漏时，如果只停留在“重…...

2026/5/12 8:07:33 阅读更多 →

从Concur到特斯拉：为什么伟大产品始于“丑陋”的1.0版本

1. 从一笔74亿美元的收购案说起：为什么别急着给1.0产品判死刑前几天翻看一些旧资料，看到一篇2014年的行业评论，讲的是德国软件巨头SAP以74亿美元的天价，收购了一家名叫Concur的西雅图公司。当时很多人觉得不可思议，Co…...

2026/5/12 8:02:56 阅读更多 →

芯片设计成本飙升的深层逻辑与一线工程师的破局之道

1. 项目概述：当芯片制程的“摩尔定律”撞上成本“墙”在半导体行业里干了十几年，我见过太多工程师和项目经理在立项会上，眼睛紧盯着性能指标和上市时间，却对那张越来越长的成本账单选择性地“视而不见”。直到最近翻到一篇2013年E…...

2026/5/12 8:02:45 阅读更多 →

CANN/ops-transformer FlashAttention V2

aclnnFlashAttentionScoreV2 【免费下载链接】ops-transformer 本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer 产品支持情况产品是否支持Ascend 950PR/Ascend 950DTAtlas A…...

2026/5/12 5:44:19 阅读更多 →