2023-12-22 05:24 点击次数:145
剪辑 | 白菜叶
AMD 在近日的 AMD Advancing AI 活动中揭开了其下一代 AI 加快器芯片 Instinct MI300 的面纱,这是前所未有的 3D 集成豪举。MI300 将为 El Capitan 超等狡计机提供能源,它是一个集狡计、内存和通讯于一体的夹层蛋糕,有三片硅片高,不错在这些硅平面之间垂直传输多达 17 TB 的数据。它不错使某些机器学习要道狡计的速率进步 3.4 倍。该芯片与 Nvidia 的 Grace-Hopper 超等芯片和的超等狡计机加快器 Ponte Vecchio 等竞品既有不同又有相通之处。
MI300a 在四个输入输出芯片 (IOD) 之上堆叠了三个 CPU 小芯片(用 AMD 的行话称为狡计复杂芯片或 CCD)和六个加快器小芯片 (XCD),统共这些都位于一块硅片之上,硅片将它们通顺到围绕超等芯片的八个高带宽 DRAM 堆栈。(MI300x 将 CCD 替换为另外两个 XCD,组成仅加快器系统。)跟着硅平面上晶体管尺寸减弱的速率放缓,3D 堆叠被视为将更多晶体管放入消失区域并不竭鼓励摩尔定律上前发展的要道要领。
图:狡计和 AI 小芯片堆叠在 MI300a 中的 I/O 缓和存小芯片之上。(开端:AMD)
「这是一个真确令东说念主神往的硅堆叠,可提供业界现在已知何如坐褥的最高密度性能。」AMD 高档副总裁兼企业臆测员 Sam Naffziger 说说念。该集成是使用两种台积电本事完成的:SoIC(集成芯片系统)和 CoWoS(基板上晶圆芯片)。后者使用所谓的夹杂键合将较小的芯片堆叠在较大的芯片之上,这种夹杂键合平直通顺每个芯片上的铜焊盘,无需焊合。它用于坐褥 AMD 的 V-Cache,这是一种堆叠在其最高端 CPU 小芯片上的高速缓存内存膨大小芯片。前者称为 CoWos,将小芯片堆叠在称为中介层的较大硅片上,该硅片旨在包含高密度互连。
AMD 和 Nvidia 之间的异同
与主要竞争敌手英伟达的作念法既有相通之处,也有不同之处。正如 Nvidia 在其 Hopper 架构中所作念的那样,AMD 的加快器架构 CDNA3 加多了使用称为 TF32 的截断 32 位数字和两种不同花样的 8 位浮点数的狡计才调。后一个属性用于加快 transformer 神经网罗某些部分的践诺,举例大型谈话模子。它们还都包含一种减小神经网罗大小的决策,称为 4:2 疏淡性。
另一个相通之处是 CPU 和 GPU 都包含在消失个封装中。在好多东说念主工智能狡计机系统中,GPU 和 CPU 是单独封装的芯片,以 4 比 1 的比例部署。将它们集成在单个超等芯片中的一个优点是,CPU 和 GPU 都不错高带宽考察疏导的缓存和高带宽 DRAM (HBM),况兼在读写数据时不会相互滋扰。
Nvidia 的 Grace-Hopper 即是这么一个超等芯片组合,通过 Nvidia 的 Nvidia NVLink Chip-2-Chip 互连将 Grace CPU 与 Hopper GPU 通顺起来。AMD 的 MI300a 亦然如斯,通过使用 AMD Infinity Fabric 互连本事集成了专为其 Genoa 系列瞎想的三个 CPU 芯片和六个 XCD 加快器。
但毛糙地看一下 Grace Hopper 和 MI300,就会发现一些长远的互异。Grace 和 Hopper 都是孤苦的芯片,集成了片上系统所需的统共功能块(狡计、I/O 缓和存)。它们是水平通顺的,而且很大——确凿达到了光刻本事的尺寸极限。
AMD 采选了不同的要领,它在几代 CPU 中都采用了这种要领,竞争敌手英特尔在其 3D 堆栈超等狡计机加快器 Ponte Vecchio 中也采用了这种要领。这个主张被称为系统本事协同优化(STCO)。这意味着,瞎想东说念主员当先将芯片剖释为其功能,然后决定哪些功能需要哪种制造本事。
「咱们思要使用 MI300 进行膨大,卓越单个单片 GPU 的才调。因此,咱们将其解构为碎屑,然后将其再行构建起来,」Instinct 的高档臆测员兼首席架构师 Alan Smith 说说念。尽管还是在多代 CPU 中这么作念,但 MI300 是该公司初次制造 GPU 小芯片并将它们绑定在单个系统中。
「将 GPU 剖释为小芯片使咱们或者将狡计置于起程点进的工艺节点中,同期将芯片的其余部分保留在更稳健缓存和 I/O 的本事中。」他说。就 MI300 而言,统共狡计都是使用台积电的 N5 工艺构建的,这是起程点进的工艺,用于 Nvidia 的顶级 GPU。I/O 功能和系统缓存都无法从 N5 中受益,因此 AMD 为此取舍了一种较低廉的本事 (N6)。因此,这两个功能不错通盘构建在消失个小芯片上。
跟着功能的剖释,MI300 中触及的统共硅片都变得很小。最大的 I/O 芯片以至还不到 Hopper 的一半大小。而且 CCD 的尺寸仅为 I/O 芯片的 1/5 傍边。小尺寸带来很大互异。一般来说,芯片越小产量越好。也即是说,单个晶圆将提供比大芯片更高比例的使命小芯片。「3D 集成不是免费的。」Naffziger 说。但他暗示,更高的产量对消了资本。
Luck and experience
Naffziger 暗示,该瞎想触及对现存本事和瞎想的机密重用、一些调和以及少量运说念。重用有两种情况。
当先,AMD 或者充满信心肠进行 3D 集成,因为它已在其 V 缓存居品中使用了透澈疏导的垂直互连间距(9 微米)。手脚 AMD 或者收取很是用度的可选附加组件,V-cache 很少有良率欠安或其他问题对公司产生紧要影响的风险。「这让咱们或者在不危及主要居品线的情况下料理制造问题和 3D 堆叠的统共瞎想复杂性,这是一件很棒的事情,」Naffziger 说说念。
另一个重用的例子就有点冒险了。当 MI300 团队决定需要 CPU/GPU 组合时,Naffziger 「有些不好兴味」地策划为 Genoa CPU 瞎想 Zen4 CCD 的团队认真东说念主,是否不错制作出稳健 MI300 需求的 CCD。
该团队靠近着比预期更早完成任务的压力,但一天后他们作念出了恢复。Naffziger 很红运;Zen4 CCD 在正确的位置有一个小的空缺空间,不错在不碎裂合座瞎想的情况下与 MI300 I/O 芯片偏激关联电路进行垂纵贯顺。
尽管如斯,仍然有一些几何问题需要料理。为了使统共里面通讯日常使命,四个 I/O 小芯片必须在特定旯旮上相互面对。这意味着制作小芯片的镜像版块。由于它是与 I/O 小芯片共同瞎想的,因此 XCD 的垂纵贯顺旨在与两个版块的 I/O 通顺。但 CCD 莫得受到任何关扰,他们很红运或者领有 CCD。因此,I/O 被瞎想为具有冗余通顺,这么不管它位于哪个版块的小芯片上,CCD 都证据顺。
图示:为了让一切都对皆,IOD 小芯片需要制手脚相互的镜像,况兼加快器 (XCD) 和狡计 (CCD) 小芯片必须旋转。(开端:AMD)
Naffziger 指出,电网必须向堆栈顶部的狡计芯片提供数百安培的电流,也靠近着访佛的挑战,因为它也必须顺应统共不同的小芯片所在。
关联报说念:https://spectrum.ieee.org/amd-mi300
Powered by 开云真人(中国)官方网站 @2013-2022 RSS地图 HTML地图
鄂ICP备2020021473号-1