先进制程贴近物理极限迭代放缓,Chiplet体现集成优势 Chiplet俗称“芯粒”或“小芯片组”,通过将原来集成于同一SoC中的各个元件分拆,独立为多个具特定功能的Chiplet,分开制造后再通过先进封装技术将彼此互联,最终集成封装为一个系统芯片。与传统的SoC依靠先进制程(摩尔定律)提高晶体管密度不同,Chiplet通过先进封装的方式,将各个芯片单元彼此互联,从而提高集成度。 由于摩尔定律在往 5nm 以及 3nm 等先进制程推进过程中逐步放缓,单位晶体管所需要付出的成本降低的速度正在持续放缓,Chiplet性价比逐步凸显。Chiplet可以通过多个裸片片间集成,突破了单芯片SoC的诸多瓶颈,带来一系列优越特性,从而延续摩尔定律。 AI等高算力芯片的需求增加,Chiplet迎来高速发展: 从下游应用场景来看,服务器、自动驾驶领域是比较适合Chiplet落地场景,随着近年来高性能计算、人工智能、5G、汽车、云端等新兴市场的蓬勃发展,对于算力的需求持续攀升,下游IC设计厂陆续推出Chiplet解决方案的高算力芯片。AMD于2023年初发布了第一个数据中心APU(Accelerated ProcessingUnit,加速处理器)产品MI300,拥有13个小芯片,基于3D堆叠,包括24个Zen4 CPU内核,总共包含128GB HBM3显存和1460亿晶体管,性能上比此前的MI250提高了8倍,在功耗效率上提高了5倍。英伟达H100采用了台积电 4nm 制程和COWOS封装工艺,拥有一颗GPUSOC和6颗HBM。GH200也采用Chiplet方案,将72核的Grace CPU、H100 GPU、96GB的HBM3和512 GB的LPDDR5X集成在同一个封装中,拥有高达2000亿个晶体管。根据Gartner数据统计,基于Chiplet的半导体器件销售收入在2020年仅为33亿美元,2022年已超过100亿美元,预计2023年将超过250亿美元,2024年将达到505亿美元,复合年增长率高达98%。 国际龙头布局Chiplet先进封装,国内厂商紧跟产业趋势: 目前全球封装技术主要由台积电、三星、Intel等公司主导,其中台积电在Chiplet处于领导地位,其推出的3DFabric,搭载了完备的3D硅堆栈(3D SiliconStacking)和先进的封装技术,技术先后被用于赛灵思的FPGA、英伟达的GPU以及AMD的CPU和GPU。国内厂商方面,中国三大封测企业长电科技、通富微电与华天科技都在积极布局Chiplet技术,目前已经具备Chiplet量产能力。长电科技推出的XDFOI™可实现TSV-less技术,达到性能和成本的双重优势;通富微电 7nm Chiplet产品已大规模量产, 5nm 产品已完成研发即将量产; 华天科技目前已建立三维晶圆级封装平台—3D Matrix,Chiplet产品已实现量产,主要应用于5G通信、医疗等领域。 相关标的: 未来随着先进封装技术的发展,国内产业链深度受益,推荐长电科技(600584)、建议关注通富微电(002156)、华天科技(002185)、甬矽电子(688362);IP关注芯原股份(688521);设备关注长川科技(300604)、华兴源创(688001)等。 风险提示:新技术、新工艺、新产品无法如期产业化风险,行业与市场波动风险,国际贸易摩擦风险,产品生产成本上升风险。 1.先进制程贴近物理极限迭代放缓,Chiplet展现集成优势 1.1.Chiplet是延续摩尔定律的重要手段 Chiplet俗称“芯粒”或“小芯片组”,通过将原来集成于同一SoC中的各个元件分拆,独立为多个具特定功能的Chiplet,分开制造后再通过先进封装技术将彼此互联,最终集成封装为一个系统芯片。Chiplet可以将一颗大芯片拆解设计成几颗与之有相同制程的小芯片,也可以将其拆解设计成几颗拥有不同制程的小芯片。Chiplet是一种硅片级别的IP整合重用技术,其模块化的集成方式可以有效提高芯片的研发速度,降低研发成本和芯片研制门槛。 传统的SoC是将多个负责不同类型计算任务的计算单元,通过光刻的形式制作到同一块晶圆上,其追求的是高度的集成化,利用先进制程对于所有的单元进行全面的提升。而Chiplet是在设计系统芯片时,先按照不同的计算单元或功能单元进行分解;然后针对每个单元选择最适合的半导体制程工艺分别进行制造;再通过先进封装技术将各个单元彼此互联;最终集成封装为一个系统级芯片组。 图1.Chiplet结构示意图 摩尔定律正在逐步放缓。随着工艺制程节点继续向着更小的 5nm 、 3nm 甚至埃米级别推进,半导体工艺制程已经越来越逼近物理极限,不仅推进的难度越来越高,所需要付出的代价也越来越大。研究机构IBS统计对比 16nm 至 3nm 的单位数量的晶体管成本指出,随着制程工艺的推进,单位数量的晶体管成本的下降幅度在急剧降低。比如从 16nm 到 10nm ,每10亿颗晶体管的成本降低了23.5%,而从 5nm 到 3nm 成本仅下降了4%。随着先进制程的持续推进,单位晶体管所需要付出的成本降低的速度正在持续放缓,即意味着摩尔定律正在放缓。 Chiplet诞生背景是在摩尔定律放缓,性价比逐步凸显。摩尔定律由戈登·摩尔(Gordon Moore)提出,其内容为“当价格不变时,集成电路上可容纳的晶体管的数目,约每隔18-24个月便会增加一倍。”在集成电路过去几十年的发展过程中,受摩尔定律的指引,在晶体管的尺寸不断微缩以及处理器性能不断增强的同时,半导体制程工艺的成本可以维持不变,甚至下降。 Chiplet能够通过多个裸片片间集成,突破了单芯片SoC的诸多瓶颈,带来一系列优越特性,从而延续摩尔定律。 表1:摩尔定律正在放缓 1.2.Chiplet在设计成本、良率、制造成本、设计灵活性等方面优势明显 与传统SoC相比,Chiplet在设计成本、良率、制造成本、设计灵活性等方面优势明显。 1.Chiplet能显著提升良率。在高性能计算、AI等方面的巨大运算需求下,芯片性能快速提升,芯片中的晶体管数量也在快速增加,导致芯片面积不断变大。对于晶圆制造工艺而言,芯片面积越大,工艺的良率越低。由于每片wafer上都有一定概率的失效点,而对于晶圆工艺来说,在同等技术条件下难以降低失效点的数量,因此被制造的芯片面积较大,失效点落在单个芯片上的概率就越大,所以良率会下降。通过运用Chiplet的手段,可以将大芯片拆解分割成几颗小芯片,单个芯片面积变小,失效点落在单个小芯片上的概率将大大降低,从而提高了制造良率。 图2.Chiplet提升良率 2.Chiplet能降低芯片制造成本。Chiplet的核心思想是先分后合,先将单芯片中的功能块拆分出来,再通过先进封装模块集成为单芯片。将SoC进行Chiplet化之后,不同的芯粒可以根据需要来选择合适的工艺制程分开制造,然后再通过先进封装技术进行组装,不需要全部都采用先进的制程在一块晶圆上进行一体化制造,这样可以极大地降低芯片的制造成本。 图3.Chiplet技术显著降低成本 3.Chiplet能提高芯片设计的灵活度,显著降低设计成本。由于Chiplet芯粒可以独立设计和组装,因此制造商可以根据自己的需要来选择不同类型、不同规格和不同供应商的芯粒进行组合,很大程度上提高了芯片设计的灵活性和可定制化程度;并且制造商可以依赖于预定好的芯片工具箱来设计新产品,缩短芯片的上市时间。同时The Linley Group在《Chiplets Gain Rapid Adoption:Why Big Chips Are Getting Small》中提出,Chiplet技术可以将大型 7nm 设计的成本降低高达25%;在 5nm 及以下的情况下,节省的成本更大。 图4.Chiplet技术缩短上市时间 表2:Chiplet与SoC对比 Chiplet方案目前在互联与封装两块还存在一定的难点。Chiplet的关键是让芯粒之间高速互联,因此芯片设计公司在设计芯粒之间的互联接口时,需要保证高数据吞吐量与低数据延迟和误码率,同时还要考虑能效和连接距离。Chiplet方案对封装工艺也有更高的要求,主要由于第一封装体内总热功耗将显著提升;第二芯片采用2.5D/3D堆叠,增加了垂直路径热阻;第三更加复杂的SiP,跨尺度与多物理场情况下热管理设计复杂。以上要求都给Chiplet技术的发展增加了难点。 2.AI等高算力芯片的需求增加,Chiplet迎来高速发展 2.1.Chiplet在服务器中率先应用 在高性能计算领域,Chiplet是满足当下对算力需求的关键技术。运用Chiplet技术,一方面通过DietoDie连接和Fabric互联网络,能够将更多算力单元高密度、高效率、低功耗地连接在一起,从而实现超大规模计算;另一方面,通过将CPU、GPU和NPU高速连接在同一个Chiplet中,实现芯片级异构系统,可以极大提高异构核之间的传输速率,降低数据访问功耗,从而实现高速预处理和数据调度;同时,其采用非先进制程构建Cache(位于CPU与内存之间的临时存储器),提高片上Cache的容量和性价比,并通过3D近存技术,降低存储访问功耗,从而满足大模型参数需求。 从下游应用场景来看,服务器、自动驾驶领域是比较适合Chiplet落地场景,消费电子由于对轻薄、功耗要求较高,不太适合应用Chiplet。随着近年来高性能计算、人工智能、5G、汽车、云端等新兴市场的蓬勃发展,对于算力的需求持续攀升,仅靠单一类型的架构和处理器无法处理更复杂的海量数据,“异构”正在成为解决算力瓶颈关键技术方向。Chiplet技术目前主要聚焦于HPC高性能计算与AI人工智能领域,随着算力、存储等需求升级,Chiplet有望在未来市场上得到更加广泛的应用。 国际巨头厂商已经布局Chiplet在高性能计算领域的应用。英特尔于2022年底发布了数据中心GPU Max,是英特尔针对高性能计算加速设计的第一款3D GPGPU,在一颗芯片里集成了47颗芯粒,有5种制程,以此获得比上一代高出三倍性能的提升。 图5.英特尔GPU MAX AMD在这个方向走在了更前面 ,目前已经发布了第一个数据中心APU(Accelerated ProcessingUnit,加速处理器)产品MI300,其采用Chiplet技术,在4块6纳米芯片上,堆叠了9块5纳米的计算芯片。AMD表示,相较于上一代的Instinct MI250,提升了8倍的AI训练算力和5倍的AI能效。 苹果则与台积电合作开发了UltraFusion封装技术,也是一种类似Chiplet的技术,能同时传输超过1万个信号,芯片间的互连带宽可达2.5TB/s,超出了UCIe 1.0的标准。苹果此前发布的M1 Ultra芯片将两个M1 Max芯片的裸片,采用UltraFusion封装技术进行互连,其CPU核心数量增加至20个,而GPU核心数量更是直接增加至64个。M1 Ultra的神经网络引擎也增加至32核,能够带来每秒22万亿次的运算能力。 以ChatGPT为代表的的AI应用蓬勃发展,对上游AI芯片算力提出了更高的要求,而运用Chiplet模式的异构集成方案,可以通过将通用需求与专用需求解耦,大幅降低芯片设计投入门槛及风险,有效解决下游客户在算法适配、迭代周期、算力利用率、算力成本等各方面难以平衡的核心痛点。将支持人工智能的不同功能的芯片,如GPU、CPU、加速器等,通过Chiplet的方式进行组合,可以构建出更高效的AI加速器系统。国际巨头厂商与国内领先厂商均在Chiplet技术于AI芯片的运用做了不同突破。 英伟达使运用Chiplet技术制作AI芯片的领先企业,其于2022年发布的H100 GPU芯片就是台积电 4nm 工艺和Chiplet技术融合的创新之作。英伟达通过Chiplet技术将HBM3显存子系统集成到芯片里,可提供3TB/s的超高显存带宽