小芯片技术分析

小芯片技术分析
芯粒(Chiplet)是在2015年Marvell创始人之一周秀文(Sehat Sutardja)博士曾提出Mochi(Modular Chip,模块化芯片)架构的概念,这是芯粒最早的雏形。
几十年来,半导体行业一直按照摩尔定律的规律发展着,芯片制造商凭借工艺技术的迭代,每18个月令芯片性能提升一倍。但随着近年来先进工艺演进到了3nm、2nm,用提升晶体管密度来提高性能的做法遇到了瓶颈,摩尔定律开始放缓甚至停滞。产业开始思考将不同工艺的模块化芯片,像拼接乐高积木一样用封装技术整合在一起,在提升性能的同时实现低成本和高良率,这就是芯粒。
2022年,芯粒的高速互联标准通用芯粒互连技术正式推出。旨在定义一个开放的、可互操作的芯粒生态系统标准。
芯粒是不同功能芯片裸片的拼搭,某种意义上也是不同IP的拼搭。芯原作为中国大陆第一,全球第七的半导体IP供应商,在各类处理器IP上有着深度布局,将通过“IP芯片化(IP as a Chiplet)”和“芯片平台化(Chiplet as a Platform)”持续推进芯粒技术的发展和产业化落地。
参考文献链接
https://baike.baidu.com/item/%E8%8A%AF%E7%B2%92/61000455?fromtitle=Chiplet&fromid=61016174&fr=aladdin
https://mp.weixin.qq.com/s/AvznW2nlVHQAEJ1R4eFBeg
https://mp.weixin.qq.com/s/ZWQ6D5mDzu4XDJc-WY1HUA
https://mp.weixin.qq.com/s/DMITdvQPovB7DbHKwgrTcQ
芯原有六大核心处理器IP,分别为图形处理器(GPU)IP、神经网络处理器(NPU)IP、视频处理器(VPU)IP、数字信号处理器(DSP)IP、图像信号处理器(ISP)IP和显示处理器IP,此外还有1,400多个数模混合IP和射频IP。芯原将这些处理器IP有机结合,推出了处理器IP 子系统、IP 平台等,例如从摄像头输入一直到显示输出的整个智能像素处理IP平台。基于丰富的IP储备,芯原提出了IP芯片化(IP as a Chiplet,IaaC)的理念,旨在以芯粒实现特殊功能IP的“即插即用”,解决7nm、5nm及以下工艺中,性能与成本的平衡,并降低较大规模芯片的设计时间和风险。
越来越火的Chiplet
领先的芯片供应商,如AMD和Intel,已经在多个产品中采用了小芯片(Chiplet)技术。根据分析,这项技术可以将大型7nm设计的成本降低高达25%;在5nm及以下的情况下,节省的成本更大。预计小芯片将广泛用于这些高级节点中的数据中心处理器和网络芯片。Alphawave赞助了这篇白皮书的创作,但其观点和分析都是作者的观点和分析。
随着芯片设计人员努力应对摩尔定律的放缓,许多人正在采取一种称为小芯片的新方法。这种方法将一个复杂的设计,例如一个高端处理器或网络芯片,分成几个小芯片,而不是一个大的单片芯片。数据中心产品通常具有领先的晶体管数量,是小芯片的早期采用者。AMD 和英特尔已经推出了多种基于小芯片的设计,英伟达也在开发小芯片技术。预计小芯片技术的使用率会提高。
数据中心客户是最苛刻的客户之一,需要更高的计算性能来提供新的云服务和更大的网络带宽来连接大量服务器。为了满足这些计算需求,英特尔和 AMD 竞相在其服务器处理器中塞入更多内核。英伟达强大的GPU已成为训练大型人工智能模型的热门工具,这些模型可以执行标准服务器无法执行的任务。大型数据中心已将以太网速度推至 100Gbps 甚至更高,同时需要具有高端口数的交换芯片。高端 FPGA 客户希望产品具有用于其前沿应用的更多逻辑门。
几十年来,摩尔定律不断改进晶体管技术,使芯片供应商能够满足这些客户的需求,但它正在失去动力。将晶体管密度加倍现在需要三到四年而不是两年。密度的每一次增加都伴随着晶圆成本的急剧上升,每个晶体管的成本几乎没有降低,这是摩尔定律的一个关键原则。每个新晶体管节点的功率和速度增益也有所减少。简而言之,迁移到下一个节点变得更加昂贵,而提供的收益却更少。
小芯片提供了一种创建更高级设计的替代方法。通过使用两个或更多芯片,公司可以将设计的晶体管数量增加到超出单个芯片所能容纳的数量。它可以将较旧的节点用于一些小芯片以节省成本,同时在需要最佳性能的地方使用前沿节点。对于复杂的设计,这种方法可以降低制造成本。随着设计转向 5nm 及以下,成本上升提高了小芯片的经济性。
数据中心中的小芯片
AMD 是第一个引入小芯片架构的主要供应商。其最初的 Epyc 服务器处理器代号为 Naples,于 2017 年推出,在单个封装中具有四个相同(同类)小芯片,总共提供 32 个 CPU 内核。2019年,该公司又推出了第二款Epyc设计(“罗马”),使用8块CPU芯片实现64核,是当时英特尔最好的处理器的两倍多。。Rome 设计增加了第九个小芯片,它集中了所有的 DRAM 和 I/O 电路,如图 1 所示;该芯片使用较便宜的 14 nm节点,而 CPU 小芯片使用7 nm晶体管来提高速度和功率。AMD 为其最新的第三代Epyc 处理器(“米兰”)保留了相同的小芯片配置。
在这里插入图片描述

图 1. AMD 小芯片设计。Epyc 7002(“Rome”)处理器具有 8 个 74mm² CPU 芯片,每个芯片具有 8 个 x86 内核和 32MB 缓存。I/O 芯片尺寸为 410 mm²,并连接到 DRAM 和高速外围设备。有机包装尺寸为 58x78mm。(照片由 AMD 提供,林利集团提供)
对于Agilex FPGA,Intel采用了芯片,但采用了不同的方法。Agilex将设计的主要部分(包括可编程逻辑、CPU子系统和DRAM控制器)保留在单个芯片上。这些芯片(Intel称之为tiles)实现额外的I/O连接,如高速serdes、PCIe Gen5、高带宽内存(HBM2)和Optane持久内存。这种方法允许公司只需更改已安装的芯片即可提供具有各种I/O组合的Agilex产品。英特尔甚至可以创建特定于客户的芯片来添加特殊功能。公司可以添加新的小芯片,例如112Gbps的serdes或HBM3,即使在基本芯片已经投产之后。
Barefoot Networks 现在是英特尔的一部分,在其名为 Tofino 2 的 400G 以太网交换芯片中使用了小芯片。与 Agilex 一样,该产品将中央逻辑保留在单个芯片上,但将其 32 个以太网端口划分为四个小芯片。这种划分简化了封装中 I/O 信号的布线。相信以太网小芯片采用 16nm 技术,相对于将它们保留在主要的 7nm 芯片上,降低了成本。该公司还可以在完成其余复杂设计之前开发和测试高速以太网电路,从而降低开发风险。
其他生产中的小芯片设计包括华为 Ascend 910,它包括一个计算芯片和一个独立的 I/O 芯片。它使用硅衬底来连接两个芯片以及四个 HBM2 堆栈。有传言称,英伟达的下一代 GPU(也称为 Lovelace 或Ampere Next)将使用小芯片。英特尔计划在未来的处理器中转向小芯片,优化 CPU、GPU 和 I/O 电路的技术节点。其针对数据中心和超级计算机的 Ponte Vecchio GPU 分为多个小芯片,尽管英特尔尚未透露 2022 年产品的细节。最终,该公司希望通过在小芯片上实现单独的功能块、通过混合搭配过程创建新产品来减少处理器设计时间。.
小芯片的好处
将大芯片分成更小的小芯片通过提高产量来降低制造成本。传统的良率模型假设缺陷在晶圆上随机散布,并且芯片上任何地方的缺陷都会使其无法使用。因此,大芯片比小芯片更可能包含缺陷。掩模尺寸 700mm²的设计(可能的最大尺寸)通常会产生大约30% 的合格芯片,而 150mm²芯片的良品率约为 80%。即使考虑到更多数量的小芯片,这种产量的提高也节省了大量成本。
为了提高大芯片的良率,一些供应商包括可以容纳某些缺陷的冗余电路。例如,一块 SRAM 可以有额外的行来替换任何失效的行。这种方法增加了芯片面积,但减少了易受缺陷影响的“有效面积”。小芯片设计可以去除冗余电路,减少芯片面积,同时仍然提高产量。
进一步的成本节约来自使用不同的制造节点创建不同的(异构)小芯片,这在单片设计中是不可能的。例如,对于密集封装的逻辑和存储器,7nm 晶体管比 16nm 晶体管便宜,但 I/O 接口通常具有模拟电路和其他无法从较小节点中受益的大型功能。出于这个原因,许多小芯片设计将 I/O 功能隔离到在旧节点中制造的单独芯片中。一些逻辑电路(例如加速器)可能不需要以与主处理器相同的最大时钟速率运行,因此可以在中间节点中制造。使用较旧的工艺技术可以将这些小芯片的制造成本降低多达 50%。
公司可以通过在多个产品中重复使用小芯片来减少设计时间和流片费用。例如,AMD 在其第一代 Epyc 和 Ryzen 产品中使用了相同的小芯片设计;PC 处理器使用单个小芯片,而服务器处理器最多包含四个小芯片。此外,AMD 可以通过改变封装中的小芯片数量来轻松提供广泛的 Epyc 核心数量。相比之下,英特尔通常会流片出三款至强芯片,每款都有不同的核心数,以涵盖每一代的全系列型号。同样,Barefoot 可以通过更改以太网小芯片的数量来扩展其交换机的端口数。
I/O 接口故障会导致产品无法启动。为了降低这种风险,Barefoot 将其前沿的以太网设计转移到一个单独的小芯片上,使其能够独立于主逻辑芯片开发和测试该电路。尽管其 Agilix FPGA 已经开始出货,但英特尔计划开发新的小芯片以随着时间的推移升级产品的 I/O 功能。
小芯片可以通过实例化比单个芯片容纳更多的晶体管来实现晶体管数量“超摩尔”的增益。Xilinx 从 2011 年开始使用这种方法,当时它将四个中型小芯片组合在一起,提供的门数是当时最大的单片 FPGA 的两倍。AMD 的 Rome产品在 9 个小芯片上集成了 400 亿个晶体管,而英特尔的现代 Skylake Xeon 单片设计只有 80 亿个。然而,对于许多前沿产品,功耗 (TDP) 在设计达到最大芯片尺寸之前限制了晶体管的数量。
小芯片成本研究
设计人员可以通过多种不同方式实现小芯片。有些使用同构的小芯片,而其他的则将计算和 I/O 功能隔离到不同的小芯片中。硅衬底在小芯片之间提供密集的布线和更大的带宽,但有机衬底的成本更低。作为一个简单的案例研究,让来看一个假想的处理器,它可以被分成四个同质的芯片。单片版本需要 7nm 节点中的 600mm²和昂贵的 60x60mm有机 BGA 封装,具有许多布线层来处理大量 I/O。该设计包括一个具有冗余行的相当大的内存,留下了 80% 的有效区域。
在这里插入图片描述
表 1. Chiplet 成本比较。这个比较假设一个大芯片 (600mm²) 几乎没有冗余(80% 的有效面积)和一个大 (60x60mm²) 的有机封装被分成四个相同的小芯片。小芯片降低了总芯片成本,但需要更昂贵的封装,净节省 13%。(资料来源:林利集团估计)
划分这种设计可能会产生四个 150mm²的芯片,但小芯片需要额外的芯片到芯片连接区域,这需要比芯片上信号大得多的驱动器;为此,估计有 10% 的开销。即便如此,如表 1 所示,较小芯片的良率几乎是大型单片芯片的两倍,从而节省了 100 美元的总芯片成本。
然而,由于测试四个芯片而不是一个芯片的开销,测试成本略高。由于多种原因,该包装已经很昂贵,但成本会大幅增加。如上所述,小芯片的总面积要大 10%,并且封装需要小芯片之间有一些空间,因此它增长到 60x80mm²。将 I/O 分布在更大的封装中减少了布置这些信号所需的层数,但新的芯片到芯片信号增加了布置的层数;假设这些变化不重要,并且层数保持不变。最后,多芯片封装的组装成本会更高,组装损耗也会更高。这些封装成本抵消了大约一半的芯片成本节省,净收益为 13%。
在这里插入图片描述
图 2. Chiplet 成本场景。小芯片对于几乎没有冗余的大芯片来说是最具成本效益的。在 7nm 节点中,100% 有效面积设计的交叉点约为 400mm²,而对于 5nm,交叉点低于 300mm²。(来源:林利集团分析)
将此成本模型扩展到其他示例,看到了在几乎没有冗余或没有冗余的情况下最大的节省。在 7nm节点中,小芯片降低了单片设计的成本,有效面积大于 400 mm²,如图 2a 所示。根据模型,对于相同内核占用 50% 或更多芯片面积的高度常规处理器,小芯片通常会增加制造成本。在这种情况下,冗余内核会提高大芯片的良率,从而降低小芯片的良率增益。
在更先进的制造节点中,小芯片在更广泛的设计中具有优势。例如,在5nm 工艺中,晶圆成本几乎翻了一番,达到 17,000 美元。因此,转移到更小的芯片所节省的成本更大,更容易抵消封装成本的增加。根据模型,5nm 的净成本节省比 7nm 高约10%,这意味着小芯片可以降低小至 200mm²的裸片成本。即使对于有效面积为 50% 的处理器,在 300mm² 以上也会节省成本。尽管 3nm 的晶圆成本尚未确定,但成本节约肯定会再次上升,将小芯片的盈亏平衡点推到150mm²以下。
成本分析表明,用于大型数据中心芯片的芯片组架构具有相当大的优势。在 7nm 中,估计分解非常大的芯片最多可节省 20% 的成本,而小至 400mm²的芯片则节省较少的成本。不断上涨的晶圆成本提高了小芯片方法的价值,将超大芯片的潜在节省推至 5nm 的 30% ,在3nm 上则可能达到 40%。在这些先进的节点中,即使是 300 mm²或更小的中等尺寸芯片,小芯片也会很有吸引力,尽管这些较便宜的设计节省的成本自然会更小。该分析排除了其他潜在好处,例如通过在尾随节点中构建部分设计来降低制造成本,或通过在多个产品中重复使用小芯片来降低设计成本。 该分析与迄今为止的小芯片部署一致。如果作为单个 7nm 芯片实施,大多数生产中的小芯片产品将是掩模尺寸(或更大),这使得这种方法最适合昂贵的数据中心芯片。一些供应商将他们的 PC 处理器称为小芯片设计,但他们只是将主处理器和南桥封装在一起,英特尔已经这样做了好几年。到 2022 年,预计大多数 PC的GPU 、以及一些中端网络芯片和 FPGA将采用小芯片设计技术。设计内部 ASIC 的公司也将开始采用该技术。 小芯片并不适合所有设计。PC 和智能手机处理器的尺寸通常为 150 mm²或更小,因此它们不会受益。英特尔和英伟达等供应商通过减少某些产品型号的核心数量以容纳有缺陷的核心来提高产量;这种方法还降低了小芯片的成本效益。异构小芯片设计(例如 Agilex 和 Ascend)实际上会增加昂贵的流片数量,尽管其中一些流片通常会转移到较旧的、成本较低的节点上。在多个产品中重用小芯片可以抵消额外的流片成本,但考虑到不同产品细分和跨代的需求不同,到目前为止,很少看到重用示例。 然而,许多数据中心芯片都是小芯片技术的最佳选择。该技术已经引起了领先供应商的极大兴趣,AMD、英特尔和英伟达都在出货或至少开发基于小芯片的产品。正如这些供应商所证明的那样,优势不仅在于节省成本,还包括构建比任何单片芯片都更大的设计、通过解耦新技术降低进度风险以及提供灵活的产品配置。其他在高级节点(包括 ASIC)中构建大型设计的公司应该评估这种新方法,以确定他们是否可以从小芯片技术中受益。
chiplet的发展路线
Chiplet——“延续”摩尔定律的重要技术途径
Chiplet又被翻译为芯粒或小芯片,为了不引起歧义本文直接使用Chiplet英文原文。到目前为止AMD、Intel、Nvidia等多家国际头部IC设计企业都推出过基于Chiplet的产品,而目前又传出苹果准备在下一代高端处理器中采用Chiplet技术。一时间Chiplet技术仿佛成为了流量明星,成为最近几年来集成电路行业最热的技术之一。而在国内,Chiplet技术也是受到了各方关注。但遗憾的是,除了海思以外还缺乏有公司或者机构真正采用Chiplet技术去做出商业级别的芯片。
那么各个头部公司青睐Chiplet的原因是什么呢?这实际是“摩尔定律”发展趋缓,依靠传统方法算力提升难度增加而探索出了一条技术途径。
“摩尔定律”到底死没死,是近10年来不断被提起的一个话题。不断有消息宣称“摩尔定律”已死,但又不断有专家出来辟谣说“摩尔定律”还活着,还在不断的延续。一时间仿佛“摩尔定律”化身为薛定谔的猫,处于“又生又死”的状态。但其实仔细分析一下“活”,就可以发现“摩尔定律”确实还活着,只不过越来越不能“健康”的活着。如果拿人来做比喻的话,那么在45nm工艺制程之前的摩尔定律可以说正值盛年,要想活下去注意身体、日常锻炼就好。而到了45nm节点时,过大的泄漏电流已经让微缩难以为继,不得已英特尔将采用被称为high-k的崭新材料来制造晶体管闸极电介质,而而晶体管闸极的电极也新的金属材料组合。这就好像40多、50岁的人经历了针对某个器官的重大手术一样,活是继续能活下去,但这活的质量已经大不如前。
而在工艺制程演进到28nm以下时,传统的平面晶体管结构完全不能支撑进一步微缩,2011年以后以FinFET为代表的新型器件结构全面崛起。至此以后工艺制程的微缩进入了“举步维艰”的时代,Intel公司由于其制程长期被卡在14nm附近导致处理器性能提升缓慢(当然,也不止这个原因)而被广大网友戏称为“牙膏厂”。即便是采用了FinFET技术也并没有能够为摩尔定律延寿多久,随着工艺制程进入了10nm以下,一些如GAAFET这样的新的器件结构又将被应用到产业中。
在这里插入图片描述
图1.近10年新型器件结构的演变
这些新型器件的结构导致工艺复杂,各家实现的技术路线也各不相同。同样是7nm制程的,台积电和三星的采取的技术路线区别很大。其实发展到这一步,“摩尔定律”可以类比于一个已步入暮年的普通人,靠“打针吃药”勉力维持着。虽然活着,但活得很艰难。活的很“贵”也活的很“脆弱”。
先来谈贵的问题。贵的原因是由于采用了大量新技术新工艺新结构,这让芯片制造的成本成倍增加。增加成本还不是最关键的,关键这样的成本增加似乎是无止尽的。为维持晶体管的密度可以持续增加,现在每革新一代制程就需要大量的技术和工艺创新。这就是使得经济成本完全没有办法摊薄。
事实上从图2就可以看出,在28nm以后,平摊到单个晶体管上的价格其实就没有下降,反而在不断的上升。这其实已经在经济上宣告了摩尔定律的终结——确实还是可以买到包含了越来越多晶体管的芯片,但是那种等2年左右时间就可以用同样的价格买到比原来多一倍晶体管芯片的“理想年代”已经一去不返了。
在这里插入图片描述
图2.不同制程下每百万门的造价
接下来说“脆弱”的问题,也就是晶体管的缺陷不断增加的问题。这其实是晶体管微缩到一定程度以后,必然出现的问题。现在的晶体管加工早已经是让光刻技术“不堪重负”。无论是多重曝光还是浸润式光刻,都是用一种“明知不可为而为之”的方式在追求极致的微缩。而这就让工艺的一致性和准确性控制非常难做,出现工艺误差甚至加工缺陷的情况就越来越严重。最终反应到芯片上面就是成品率低或者说器件故障率高。故障率高的结果就是一次加工,抛开测试后无法工作的坏片,剩下能工作的芯片就很少。本来加工一次就贵,加工完了以后还要扔掉不少,于是加工出来的合格产品的价格就会居高不下
传统上解决的方法无非两种:一是加大投资进一步去改进工艺加强品控,但这不但投资巨大而去改进总是有物理极限的;二是利用容错设计的方法让芯片即使在有错的情况下也可以正常工作,但这也需要付出额外硅片面积来实现容错电路的,当缺陷多到一定程度以后加过多的容错电路从经济上看又不划算 。所以“脆弱”的问题最终还是反应到了“贵”上面,成为进一步推高先进制程芯片造价的推手。
以上两个问题应该如何解决?确实都不太好解决,但可以尝试先来解决第二个问题。解决第二个问题的方法就是“切”,把大芯片切成小芯片。
图3给了一个示意图,当裸芯(Die)的面积越小,那么在缺陷概率一定的情况下整体的良率越高。如果裸芯的面积是4040的良率才35.7%。如果面积减少到2020,良率就上升到了75%。如果进一步减小,良率还会提升。这里面有一些统计学上的数学关系。这里就不详细解释了,大家从理性直觉简单来分析一下就能明白:在缺陷“密度”确定的情况下,裸芯的面积越小,“撞”上缺陷的概率就越大。
在这里插入图片描述

图3.裸芯面积越小整体良率越高
所以把大芯片切成小芯片(Chiplet)就变成了提升良率的一种必然选择。而一旦切成Chiplet以后又有了一个新的好处:快速复用。虽然以前SoC设计方法学中IP已经被设计成可以复用的,但形成SoC原型设计以后该走的软硬件协同验证、后端与物理设计、流片制造、封装测试的流程一个也少不了。可以说是“复用了但又没有完全复用”。而如果是Chiplet的话,就是一个已经走完了完整设计、制造、测试流程的成品小裸片,只是需要直接做一次封装加工就可以用起来。其复用的程度远超过现在的IP。
在这里插入图片描述
图4就给出了AMD复用Chiplets的一个典型案例。把多个Chiplet在封装级重新拼装成起来构成完整的系统级芯片,可以在保证良率的前提下继续让单颗芯片内部的晶体管数量增加,又可以复用之前已经成熟的Chiplet。
图4.AMD在第三代锐龙(Ryzen)处理器上复用了第二代宵龙(EPYC)处理器的IO Chiplet
在图4中可以看出AMD在第三代锐龙(Ryzen)处理器上复用了第二代霄龙(EPYC)处理器的IO Chiplet,这种复用不但意味着可以将“老旧制程”生产的Chiplet继续应用到下一代产品中以节约成本,更意味着可以极大的节约设计、验证和生产的周期并渐小失败的风险。这一方面要节约大量的人力成本,同时也可以加快上市时间。
如果只是看单位硅片面积上的晶体管数量,Chiplet技术仿佛没有什么帮助,也谈不上“延续”摩尔定律。但如果一颗完整的芯片看成是封装后“成品”,可以认为摩尔定律还在继续延续,因为总的晶体管数量确实增加了。尤其是重要的是,这是在不大量的增加成本的前提下完成的,虽然这似乎是一条“退而求其次”的路线。
综上所述:1、摩尔定律如果继续依靠传统的“微缩”路线从经济上来说其实已经难以为继,单个芯片上集成更多的晶体管虽然从技术上来说依然可行但成本已经大到无法接受;2、先进制程的良率问题是让流片成本居高不下的主要因素之一,将大裸片“切”成Chiplet是有效提升单个晶圆良率的必由之路,也是让摩尔定律可以持续的主要方法之一。3、Chiplet技术不但可以提升良率,还可以通过复用成熟的Chiplet进一步降低设计成本和风险,让单颗芯片内部晶体管数量持续增加的同时成本依然可以接受。
发展Chiplet技术面临的问题
可以看到,Chiplet技术是制程演进到了纳米级别,摩尔定律从经济上已难以为继时所发展出来的一条技术路线。也可以说是不得已而为之,改变了传统的技术演进方式。在某种程度上说,有一点“产业链局部重构”的意味。但这种改变必然也要面临新的问题。
首要的问题就是多个Chiplet之间的通信问题。这又分为了几个层次,包括了封装技术、电路设计、协议标准等多个方面。
首先是封装技术,Chiplet技术要把原本单个大硅片“切”成多个再从封装级组装起来。单个硅片上的布线密度和信号传输质量是要远远高于Chiplet之间的。这就要求必须要发展出高密度、大带宽布线的“先进封装技术”,尽可能的提升在多个Chiplet之间布线的数量并提升信号传输质量。好消息是经过多年的发展,Intel和台积电(TSMC)都已经有了相关的技术储备,通过所谓的中介层(Interposer)将多个Chiplet互连起来。TSMC公布的技术是CoW,而Intel公布的是EMIB。今天这些技术仍然在不断演进中,并有更新的技术不断推出。
在这里插入图片描述
图5.台积电和Intel公开发表的先进封装技术
其次是用于Chiplet之间的高速通信接口电路设计,也就是Chiplet间通信的“物理层”设计。Chiplet之间的通信当然可以依靠传统的高速Serdes电路来解决,甚至可以完整的复用PCIe之类目前已经成熟的协议。但这些协议是用于解决芯片间甚至板卡间通信的,在Chiplet之间通信用会造成面积和功耗的浪费。目前专门研究Chiplet间高速通信接口的论文也不少,也有很多类似的IP核被各大公司研制出来。
通信协议是保证不同Chiplet之间能够顺利的完成数据交互的必要保证,也是决定Chiplet能否“复用”的前提条件。目前Intel公司推出了AIB协议、TSMC和Arm合作搞了LIPINCON协议,当然还有不少别的协议,在此不再赘述。虽然各家都在嚷嚷协议的重要性,但在目前的环境下Chiplet首先是“头部半导体”公司才会采用的技术,而这些公司“切”自己设计的大芯片然后再“封”起来自己说了算就行,并没有太多去和别的Chiplet互联互通的紧迫性。目前对于协议看得最重的应该是DARPA,因为DARPA所关心的市场属于量不大但特定需求多的市场。如果各家都按一定的标准来把自己的Chiplet通信接口和协议标准化了,那DARPA就可以“采众家之长”,从产品定义到最终产品实现之间的环节会少很多。这将大大提升美军信息技术的迭代能力,这也是DARPA推动电子复兴计划中“CHIPS”项目的初衷。其次跟着吆喝的是一些IP公司,如果实现了通信协议的统一,这些IP公司就有可能实现从“卖IP”到“卖Chiplet”的转型,开发出新的商业模式。
综合看以上几个方面,先进封装技术是Chiplet实施的基础和前提,事实上正是由于先进封装技术的突破才让Chiplet技术从构想走入现实。面向Chiplet的通信接口电路设计也很重要,相信这些已经实施了Chiplet的头部公司一定也有自己的设计。但如果“实在没有”,用现有技术凑合的话其实能勉强一用。至于通信协议,目前应该还属于“谁都说服不了谁”的阶段。其实这个也很正常,通信协议真正能够推开,最后就是“产品为王”。最后基于那个产品的协议占了主流,哪个协议也就成为了“事实标准”。Wishbone、CoreConnect、Avalone这些片上总线协议如今听过的人不多了的原因,无非是Arm作为最大的SoC方案供应商占据了大部分市场以后自然把其支持的AMBA协议簇给带火了。现阶段强行的去谈什么统一标准既没有意义也不现实,最终必然是“剩者为王”。更何况现阶段Chiplet还是“自家切了自家用”的阶段,只要这些头部公司内部统一了就行。从《全球工程前沿2021》报告中公布的合作网络也可以看出,目前各个机构之间的合作几乎没有。
在这里插入图片描述
图6.各个公司在Chiplet技术上的合作网络
发展Chiplet要解决的第二大问题就是“设计方法学”的问题,说稍微直白一点就是:先进封装解决了如何“拼”的问题,但更重要的是要解决如何“切“的问题。半导体行业观察公众号前几日发表的“英伟达新论文,透露出GPU设计的无奈和未来”中详细的阐述了英伟达公司在决策下一代GPU要采用Chiplet技术时应该如何把一整个完整的大设计划分成多个Chiplet的思考和验证过程,这其实就是“设计方法学”的初步体现。而要让基于Chiplet的设计方法真正从“可用”变到“好用”,需要定义完整的设计流程以及研制配套的设计辅助工具。这一块展开说了又是一大段论述,为了节约篇幅在此不做详细阐述。

国内外发展Chiplet的“同”和“异”

Chiplet作为先进的集成电路技术,目前在国内也是有大量的公司和研究机构关注。有关Chiplet什么联盟、论坛之类的也有不少。但基于目前的国际形势和国内产业的实际发展水平,国内要面临的困难和国际头部IC设计公司并不相同。
以目前的国际形势下,国内集成电路产业最大的挑战来自于“封锁”,而最大的机会来自于“自主”。由于“封锁”的问题,让难以像以前那样非常方便的获取到先进制程来代工。这也很“巧合”的与Chiplet技术出现的原因类似:微缩的道路走不下去了,在单位硅片面积上增加晶体管数量有困难,只有转而追求在单个封装内部晶体管数还等持续提升。这也是目前发展Chiplet技术对于国内芯片产业最大的意义,当走传统方式延续摩尔定律的路子被“卡”断的时候,依然有一条“退而求其次”技术路线可以走。
虽然目的类似,但国内发展Chiplet的其它条件却和国际头部IC设计公司发展Chiplet并不相同。
从上面的分析可以看出,先进制程下采用Chiplet是由于良率问题而导致单个裸芯面积不能太大,而不得不去把大的设计“切”小。而要面临的问题是由于制程不够先进,单位面积上容纳的晶体管数量有限,继续去做大会面临电源噪声、功耗、良率等一系列问题。这两者之间有一定的相似性,都是要限制单个裸片上的晶体管数量,但背后的限制条件并不相同,这一点尚未有人进行深入的研究和比较。
先进封装技术是发展Chiplet的前提,前面已有论述。但先进封装技术和“传统封装技术”的差别其实和大,其工艺流程可以相互借鉴的不多。目前先进封装技术实际上是掌握在台积电、Intel这些传统被认为是“晶圆制造商”(Foundry厂)手中的,因为中介层的加工其实和“晶圆制造”而非“传统封装”更为接近。由于我不太掌握目前国内先进封装的技术能力到底到了哪一步,对此也不展开阐述,欢迎有知道的朋友评论区补充。我只是想强调的一点是:如果在先进封装技术能力上有差距,需要考虑在布线密度和信号带宽低于国际先进水平的限制下发展Chiplet技术,对此要有所准备。
第三个问题是目前国内缺乏大型系统级芯片定义与规划人才,也缺乏有能力规划Chiplet的头部设计公司。这其实是芯片产业整体欠账所导致的。目前国内设计能力最强的公司是海思,而海思也曾经在2014年就已经用Chiplet的方式完成过产品设计。根据公开的文献报道,海思的鲲鹏处理器也通过Chiplet的方式实现处理器的“系列化”。但除此之外,还未见有更多的商业成功案例。从“英伟达新论文,透露出GPU设计的无奈和未来”一文中可以看出将大的设计划分为多个Chiplet不但是一个技术问题,更是一个面向未来的产品规划问题。有“复杂大芯片”设计能力和经验的公司在国内屈指可数,有决心去规划这样的战略方向并敢于付诸实践的就更少。
最后一点,就是国内缺乏必要的Chiplet积累,包括技术积累和产品积累。与Intel、AMD等头部IC设计公司自身已经有非常成熟的复杂芯片产品不同,国内很多公司依赖于Arm、Synopsys等公司的全家桶产品支持和“保姆式”服务。还有很大一部分产品走的是“跟研”甚至是“仿制”的路线,对于复杂系统芯片的理解和掌控能力非常的弱。很多产品还在对标国外“中端”产品,尚未达到需要去“切分”的程度。更不用说具备一些“立等可用”的Chiplet成品。
所以,在中国发展Chiplet需要注意目前国内实际的产业状态。一方面Chiplet作为一种新的技术路线,确实给出了在单个裸片晶体管数量受限的情况下保持封装后芯片产品整体晶体管数量持续提升的方法;另一方面Chiplet绝不是解决目前国内芯片产业的“万能神药”,其局限和挑战同样很大,还会由于国内的特殊情况而导致新的挑战。
国内发展Chiplet可以采取的路线
通过前面的分析,大致谈了Chiplet技术产生的原因以及发展过程中面临的挑战,也简要分析了一下国内发展Chiplet要面临的一些与国际IC设计头部公司不同的困难。最后,简要结合作者的研究经验谈一些不太成熟的看法,供大家参考。
首先是要重点突破“先进封装技术”。从前文的分析可以看出,先进封装技术是实施Chiplet技术的前提。在不能大幅度提升布线密度和信号带宽的前提下发展Chiplet技术,就好像在不具备基础道路的国家发展物流产业,必然要受到极大的限制和阻碍。值得高兴的是,从各种公开报道和各种渠道的消息来看,目前国内在先进封装技术上取得了一定的成果。
其次是以要立足于国内芯片产业的现实,不以拔苗助长。目前国内芯片产业发展势头良好,但由于长期欠账导致人才、技术都相对匮乏,短期内不具备形成“聚合效应”的能力。也缺乏龙头性企业带动下迅速形成“生态”的可能性。所以目前现实的情况只能是各个企业根据自身情况选择合适的发展Chiplet技术的路线,而不能强行的依靠所谓的“联盟”、“标准化组织”搞圈地运动甚至强行推广某个标准或技术。要允许有一段“百家争鸣”的阶段。但后期应该以“赛马制”尽快挑选出能用的“良马”,发挥我国“集中力量办大事”的优势牵引推动产业链整合。
第三要认真研究目前国际头部IC设计公司的Chiplet技术路线差异,结合国内各厂商实际情况形成符合自身产业晋级的技术路线。目前各头部IC设计公司的Chiplet技术路线其实都有差异,例如AMD公司的CPU Chiplet+IOD模式,Intel 的“主Chiplet+外围Chiplets”模式等等,既建立在自身技术条件的基础上也考虑目标市场以及产品发展的具体需求。而目前国内面临的状况是在旧制程上“堆算力”的问题,因此“切”的问题要弱于“拼”。个人认为直接将现有成熟裸芯当成Chiplet,搭配必要的外围Chiplet来构建封装级的异构系统可能是目前最为实际、最能利用国内现有基础路线。
最后也是最重要的是应学习DARPA模式,以国家项目牵引打通上下游产业链的配套,实现具有我国特色的Chiplet产业模式从无到有的转换。虽然Chiplet在产业界已有雏形,但不能否认的是DARPA着力推动的CHIPS项目对于Chiplet的“催熟”作用。而我国在目前的国际战略态势下,更是需要以重大项目牵引,发挥Chiplet设计模式对于设计制造流程的优化,凸显其在小批量、多场景、系列化芯片产品上的优势。通过特定产品走通完整的技术路线,进而初步形成完整的产业链条。
以上就是本人一些不成熟的看法,欢迎大家批评指正。由于年底事情较多,导致本文完成的较为匆忙,对于某些技术文献的引用和对技术名词的解释存在一定不规范的地方,还请各位读者见谅。本文在完成过程中受到了中科芯集成电路有限公司的大力支持和帮助,在此表示诚挚的感谢。
跑步进入Chiplet时代
新的小芯片标准和用于确定给定基于小芯片的设计可行性的成本分析工具是两个新的重要部分。与其他努力一起,他们目标是推动小芯片模型向前发展,尽管该技术仍存在挑战和差距。
使用这种方法,封装公司可以在库中拥有具有不同功能和工艺节点的模块化芯片或小芯片“菜单”。然后,芯片客户可以选择这些小芯片中的任何一个,并将它们组装在一个先进的封装中,从而产生一种新的、复杂的芯片设计,作为片上系统 (SoC) 的替代品。
小芯片模型已被英特尔、AMD 和 Marvell 等公司证明有效,这些公司设计自己的小芯片和互连。现在,该行业的其他公司正在探索小芯片,主要是因为扩展对许多人来说变得过于困难和昂贵,而且迁移到新节点的功率和性能优势正在缩小。高级封装提供了一种在不同技术节点上组合芯片的经济高效的方式,而小芯片则提供了增加互连 RC 延迟的解决方案。它们还承诺更快地开发复杂芯片,并且可以针对特定市场和应用进行定制。
传统上,为了开发复杂的 IC 产品,供应商设计了一种将所有功能集成在同一芯片上的芯片。在随后的每一代中,每个芯片的功能数量都急剧增加。在最新的 7nm 和 5nm 节点上,成本和复杂性飙升。(节点是指特定的过程及其设计规则。)
“设计新硅节点的成本正在上升,”谷歌高级技术开发工程师 Mudasir Ahmad 在最近的一次演讲中说。“只是为了给你一个规模,现在做 5nm 芯片的成本与做 10nm 和 7nm 芯片的成本加起来差不多或差不多。它非常昂贵。”
虽然传统方法仍然是新设计的一种选择,但小芯片为客户提供了另一种解决方案。但与任何新技术一样,chiplet 集成并不简单。目前,基于小芯片的设计专门用于高端产品,而不是日常设计。即便如此,构建基于小芯片的模型也需要几个部分。只有少数大公司拥有所需的内部专业知识和能力,其中大部分是专有的。
这将基于小芯片的方法的采用限制在少数人身上。但现在,行业正在努力使基于小芯片的设计更易于访问。这些努力包括:
• ASE、AMD、Arm、谷歌、英特尔、Meta、微软、高通、三星和台积电组成了一个新的小芯片联盟。该小组发布了一种新的开放式裸片到裸片互连规范,使小芯片能够在封装中相互通信。
• 开放域特定架构 (ODSA) 子项目正在对类似技术进行最后的润色。ODSA 还刚刚发布了一个新的成本分析工具,它有助于确定给定的基于小芯片的设计是否可行。
• 几家封装公司正在开发制造技术,以将基于小芯片的设计投入生产。
小芯片具有挑战性
通常,要开发基于小芯片的设计,第一步是定义产品。然后,提出的基于小芯片的设计需要几个部分,例如产品架构、已知良好的芯片 (KGD) 和芯片到芯片的互连。它还需要完善的制造策略。
KGD 是设计中使用的裸片或小芯片。芯片到芯片互连允许小芯片在设计中相互通信。通过开发或采购这些部件,芯片客户可以开发基于小芯片的设计,至少在纸面上是这样。
但最大的问题是该设计是否可行或具有成本效益。这可能是一个主要的绊脚石,阻止了对风险不利的芯片客户考虑小芯片。
为了帮助这里的客户,ODSA 发布了一个成本分析软件工具,其中包括开发基于小芯片的设计所涉及的所有可能组件和成本的电子表格。
“没有通用规则说你应该总是做小芯片,或者你不应该做。这一切都取决于特定的应用程序,”谷歌的Mudasir Ahmad说。“需要一个可用于每个应用程序的模型来提供反馈。[使用电子表格,芯片客户](With the spreadsheet, chip customer)可以使用通用框架将数据输入其中。然后他们可以尝试了解为特定应用程序制作小芯片是否有意义。”
成本不是唯一的因素。工程师还必须考虑小芯片的挑战。根据Ahmad的说法,以下是其中一些挑战:
• 报废成本:如果一个小芯片在一个或多个最终设计中失败,则设备可能会报废。这增加了废品成本。
• 测试:为了最大限度地减少废品损失,设计需要更多的测试覆盖率。
• 良率:封装复杂性可能会影响整体良率。
• 性能:将信号从一个芯片移动到另一个芯片可能会降低产品的性能。
商业模式是另一个挑战。“如果您有不同的供应商提供不同的零件,并且您将它们全部放在一个封装中,那么谁负责什么?谁承担失败的责任?” Ahmad问道。
架构、KGD、互连
成本和技术挑战只是小芯片等式的一部分。客户还必须定义产品并为设计选择架构。
这里有很多选择。客户可以将芯片集成到现有的高级封装或新架构中。
扇出是一种选择。在扇出封装的一个示例中,DRAM裸片堆叠在封装中的逻辑芯片上。
在高端系统中使用,2.5D是另一种选择。在 2.5D 中,裸片堆叠在中介层上,或并排连接。中介层包含硅通孔(TSV),它提供了从die到电路板的电气连接。在一个示例中,ASIC 和高带宽存储器(HBM) 并排放置在中介层上。HBM 是 DRAM 内存堆栈。
另一种选择是将小芯片合并到新的 3D 架构中。例如,英特尔正在开发一种 GPU 架构,代号为 Ponte Vecchio。该器件在一个封装中集成了 5 个不同工艺节点的 47 个tiles或小芯片。
在这里插入图片描述

图 1:高性能计算封装的不同选项,基于中介层的 2.5D 与基板上扇出芯片 (FOCoS)。资料来源:ASE 在这里插入图片描述
图 2:2.5D 封装、高密度扇出 (HDFO)、带桥接封装和小芯片的更多示例。资料来源:安靠
任何基于小芯片的架构都需要已知良好的裸片,即满足给定规格的裸片。如果没有 KGD,封装可能会出现低良率或在现场失败。
“收到裸片,然后将它们放入封装中,以提供具有功能的产品,” ASE工程和技术营销总监Lihong Cao在最近的一次活动中说。“关于 KGD,希望通过良好的功能对其进行全面测试。希望它是 100%。”
这不是唯一的挑战。在一个封装中,一些die是堆叠的,而另一些则位于其他地方。因此,您需要一种使用裸片到裸片互连将一个裸片连接到另一个裸片的方法。
今天的小芯片设计使用专有互连连接芯片,这限制了该技术的采用。“小芯片成为新 IP 的最大障碍是标准化,” QP Technologies的母公司 Promex 总裁兼首席执行官 Richard Otte 说。“必须在小芯片之间建立标准/通用通信接口,才能在多个封装供应商之间实现这一点。”
有几个组织正在为小芯片开发开放的裸片到裸片互连标准。目前有几种相互竞争的技术,尚不清楚哪种技术会胜出或如何将它们结合起来。
ODSA 正在准备一种名为 Bunch of Wires (BoW) 的芯片到芯片互连技术。其他 die-to-die 技术包括高级接口总线 (AIB)、CEI-112G-XSR 和 OpenHBI。
在最新的努力中,由英特尔、三星、台积电和其他公司支持的新小芯片联盟发布了 UCIe,这是一个涵盖芯片到芯片 I/O 物理层、芯片到芯片协议和软件堆栈的规范。
上述所有规范都定义了封装内小芯片之间的标准互连,但它们都是不同的。“UCIe 和 BoW 都是开放规范,定义了封装内小芯片之间的互连,并支持开放的小芯片生态系统。但它们与如何定义层和优化应用程序不同,”ASE 的曹说。
事实证明,没有一种互连技术可以满足所有需求。工程师将选择满足给定应用程序要求的选项。“各种标准之间存在重叠子集的区域,” JCET首席技术官 Choon Lee 说。“因此,坚持一个标准可能没有重要意义。通常,小芯片的功能块由设备制造商定义。他们知道如何优化小芯片之间的互连。”
Chiplet 堆叠/绑定选项
一旦定义了chiplet 架构、KGD 和互连,下一步就是确定将产品投入生产是否有意义。
和以前一样,可以在代工厂、内存制造商或 OSAT 制造和组装封装或类似小芯片的设计。一些(但不是全部)代工厂和内存制造商拥有自己的内部封装组装业务。
每个供应商都有不同的能力。每个人都在开发一种或多种不同的方法来将不同的小芯片组装、堆叠和粘合在一起。先进的键合技术包括热压、激光辅助和铜混合键合。
热压键合 (TCB) 和激光辅助键合 (LAB) 都使用带有铜微凸块的传统倒装芯片工艺。在这个过程中,铜凸点形成在芯片上,然后使用倒装芯片键合器、LAB 或 TCB 将器件键合到另一个结构。相比之下,铜混合键合使用铜互连而不是传统的凸块来堆叠和连接die。
传统的倒装芯片工艺用于制造多种封装类型。一种称为球栅阵列 (BGA) 的类型用于多种芯片应用。
为了制造 BGA 封装,该过程首先在晶圆厂的晶圆上制造芯片。然后,在晶圆的一侧形成基于焊料材料的微小铜凸点。凸块由带有薄镍扩散屏障的铜柱和锡银焊帽组成。
铜凸块将一个die连接到另一个die或封装中的基板。这些凸块在不同结构之间提供了小而快速的电连接。制作铜凸点是众所周知的工艺。
在这里插入图片描述
图 3:Microbump 工艺流程。资料来源:John Lau,Unimicron
一旦在硅片上制造了凸块,芯片就会被切割。然后,该设备经过传统的倒装芯片工艺。
首先,将裸片放置在倒装芯片键合机中。通常,倒装芯片键合机用于以 300μm 至 50μm 的凸块间距堆叠和键合裸片。今天的凸块间距延伸到 40µm 及以下。(间距是指裸片上相邻凸块之间的空间。)
“许多倒装芯片器件不需要细间距,”Kulicke & Soffa (K&S) 的首席技术官 Bob Chylak 说。“倒装芯片键合机取出芯片,将焊球浸入助焊剂中,然后将它们放置在 PCB 上。”
这个过程重复几次。最终,几个裸片被放置在 PCB 上,有时称为裸片基板。然后,它经历一个大规模回流过程。“PCB 通过回流炉,回流炉熔化焊料,然后将其固化,”Chylak 说。
在回流工艺之后,PCB 上的die会进行清洁步骤。然后,系统会在 PCB 上的每个凸块die上注入模塑料。国立中山大学研究员 Wan-Chun Chuang 在一篇论文中说:“[这密封]了所有组件,保护了设备内部的芯片和凸块。”
然后,将较大的 C4 焊球植入基础 PCB 基板下方。最后,将 PCB 上的管芯切块,创建单独的 BGA 封装,每个单元内部都有管芯。
该行业需要一种不同的解决方案来使用最先进的铜微凸块,包括 40μm 或更紧密的间距。但在这些间距上使用传统的倒装芯片键合机具有挑战性。对于更细的间距,一些封装公司将 TCB 用于 40μm 至 10μm 凸块间距的芯片堆叠和键合应用。
通常,TCB 用于 2.5D/3D 封装的芯片堆叠和键合。
在这里插入图片描述
图 4:2.5D/3D 系统架构。铜微凸块连接中介层和基础管芯。资料来源:拉姆布斯
在 TCB 工艺中,使用传统的凸块工艺在die上形成微小的铜凸块。但是,在这种情况下,凸点更小,间距更小。然后,封装公司不再使用传统的倒装芯片键合机,而是使用 TCB 工具。
“不是加热整个电路板和上面的所有芯片,而是热压键合机抓住芯片,像普通倒装芯片一样将其浸入助焊剂中,然后将其放置在 PCB 上,”K&S 的 Chylak 说。“键合头中有一个加热器。这加热到超过将芯片固定到位的焊料的熔点。然后它冷却下来,使焊料凝固。”
鲜为人知的选项 LAB 也是可行的。在 LAB 工艺中,使用传统的凸块工艺在管芯上形成微小的铜凸块。
将凸块裸片和基板放置在 LAB 工具中。该系统使用激光产生的热量将管芯对齐并粘合到基板上。
“(实验室设备)具有红外激光源(980nm 波长)和光学系统(均质器),可产生尖锐且均匀的激光束,能够以极高的升温速度选择性地加热目标区域。JCET 高级研发工程师 Wagno Alves Braganca 在一篇论文中表示:. 其他人也为这项工作做出了贡献。
在 LAB 系统中,键合过程在不到一秒的时间内发生,热应力低。LAB 比 TCB 快,但它需要来自特定供应商的专用设备。
Amkor 和 JCET 正在开发 LAB。该技术自 2019 年左右开始投入生产。“LAB 一直在生产高性能计算应用,在这些应用中,由于翘曲或残余应力导致的非湿凸块或开裂可能至关重要,” JCET的 Lee 说。
OSAT 希望将 LAB 推至 10μm 间距左右。“已经使用铜无铅凸块和激光辅助键合方法演示了低至 10μm 的间距。产品符合 20μm 间距领域的要求。这些都是晶圆上芯片,而且大多是特种传感器,” Amkor高级封装开发和集成副总裁 Michael Kelly 说。
混合键合
TCB 和 LAB 都延伸到 10μm 凸点间距。除此之外,该行业还需要一种新的解决方案,即铜混合键合。在这里,想法是使用细间距铜连接直接堆叠和连接die,而不是传统的微凸块。
铜混合键合并不新鲜。2005 年,Ziptronix 推出了一种称为低温直接键合互连 (DBI) 的技术,被认为是铜混合键合的第一个版本。(2015年,Tessera收购了Ziptronix。2017年,Tessera更名为Xperi。)
2015 年,索尼获得了 DBI 许可,并在其 CMOS 图像传感器生产线上实施了该技术。其他图像传感器供应商也获得了 DBI 许可。
对于 CMOS 图像传感器,供应商遵循晶圆间混合键合工艺流程。首先,在一个晶圆厂中处理两个不同的晶圆。第一个晶圆由大量处理器裸片组成。第二个晶圆由大量像素阵列管芯组成。
目标是将每个像素阵列die堆叠在每个处理器管芯之上。为此,将两个硅片插入硅片键合机中。键合机对齐每个芯片并使用两步键合工艺将它们连接起来。首先它形成电介质-电介质键,然后是金属-金属连接。最后,晶圆上的die被切割和封装,形成图像传感器。
使用 Xperi 的 DBI 工艺,索尼和 OmniVision 正在生产分别采用 3.1μm 和 3.9μm 间距的 CMOS 图像传感器。
现在,业界正在开发用于 3D 芯片和封装应用的铜混合键合。AMD、Graphcore 和 YMTC 已经发布了来自不同供应商的使用混合键合的产品。其他人在研发。
在封装中,混合键合用于晶圆到晶圆和芯片到晶圆的键合。在die-to-wafer中,两个带有芯片的晶圆在晶圆厂中进行加工。然后,第一晶片上的芯片被切割并使用混合键合键合到第二晶片。
在这里插入图片描述
图 5:Xperi 的芯片到晶圆混合键合流程。资料来源:Xperi
芯片到晶圆为封装客户提供了更多选择,但这是一个具有挑战性的过程。“CMOS 图像传感器是通过晶圆对晶圆混合键合形成的,其中键合芯片的占位面积相似,并且两个晶圆都具有足够高的良率以及成熟的硅供应链和工艺,”Xperi产品营销副总裁Abul Nuruzzaman 说,。“在 2.5D 或 3D 高级封装中,有时需要芯片到晶圆的键合技术。它还需要 KGD、不同的裸片尺寸以及来自不同技术节点或晶圆尺寸的裸片。切割、芯片处理和组装必须与混合键合工艺兼容,这对行业来说相对较新。”
除了 Xperi,Imec、英特尔、Leti、美光、三星和台积电也在开发铜混合键合工艺。
所有铜混合键合工艺都是相似的。首先,所需的芯片设计在晶圆厂的两个晶圆上进行处理。然后,每个晶圆在晶圆厂中都经过一次大马士革工艺。为此,将介电材料沉积在晶片的一侧。在材料上,为晶圆上的每个裸片图案化和蚀刻微小的通孔。
然后将铜材料沉积在硅片上。然后,化学机械抛光 (CMP) 工具抛光表面。剩下的是每个芯片的微小通孔中的铜金属化材料。暴露的铜通孔代表焊盘。
硅片的表面必须是原始的,没有缺陷。因此,在 CMP 之后,使用计量工具检查表面拓扑结构是否存在缺陷。然后,将芯片切割在一个硅片上。使用晶圆键合机,将die堆叠并键合到第二个晶圆上。然后切割最终的键合芯片。
这是一个具有挑战性的过程。在流动过程中,不需要的颗粒和缺陷可能会出现在模具上。颗粒会导致焊盘出现空洞。即使一个 100nm 的粒子落在焊盘上,也可能导致数百个连接失败。
迄今为止,只有少数供应商开发和制造了基于小芯片的设计。为了更广泛地采用该技术,几个关键部分正在到位。
鉴于在先进节点开发芯片的成本不断上升,业界比以往任何时候都更需要小芯片模型。

参考文献链接
https://baike.baidu.com/item/%E8%8A%AF%E7%B2%92/61000455?fromtitle=Chiplet&fromid=61016174&fr=aladdin
https://mp.weixin.qq.com/s/AvznW2nlVHQAEJ1R4eFBeg
https://mp.weixin.qq.com/s/ZWQ6D5mDzu4XDJc-WY1HUA
https://mp.weixin.qq.com/s/DMITdvQPovB7DbHKwgrTcQ

猜你喜欢

转载自blog.csdn.net/wujianing_110117/article/details/124906262
今日推荐