NVIDIA HGX B200的一些照片
HGX B200风冷模组
使用了HGX B200风冷模组的整机高度达到了10U,其中HGX B200风冷模组的高度约占6U。
Exxact TensorEX 10U HGX B200 Server
6x 5250W Redundant (3 + 3) power supplies
在 OCP 2024 全球峰会上展示了一些 NVIDIA HGX B200 的新照片。 与 NVIDIA HGX A100/H100/H200 相比,它的一大变化是 NVLink Switch芯片移到了组件的中心,而不是位于一侧。这最大限度地缩短了 GPU 和 NVLink Switch芯片之间的最大链接距离。NVLink Switch并且只有2个,而不是上一代的4个,且尺寸比上一代的明显变大。
在边缘侧的连接器附近是PCIe Retimer,而不是NVSwitch了。这些Retimer通常使用较小的散热器,因为它们的TDP大约在10-15W之间。
没有装散热器的HGX B200主板-2
在EXAMAX连接器的上表面的丝印显示这是一块 Umbriel GB200 SXM6 8 GPU 底板,部件编号为:675-26287-00A0-TS53。仔细观察,发现Retimer芯片厂家为Astera Labs。
NVIDIA HGX B200部件编号信息
NVIDIA HGX B200 Astera Labs Retimer芯片放大图
HGX B200主板整体芯片的外围均有一层黑色的铝合金材质的安装框架,用于固定散热器和黏贴导热材料用。
下面是在2024年 OCP全球峰会上展示的 NVLink Switch 芯片。
NVIDIA HGX B200 NVLink Switch芯片放大图
HGX B200液冷板方案的思考
NVIDIA为B200设定了两个TDP,1200W和1000W,前者定位液冷,后者定位风冷。此外,B100 还提供与之前的 H100 SXM 相同的 700W 范围,允许 OEM 制造商重复使用 700W 的风冷设计。当然,TDP 限制越高,时钟频率和启用的算术单元数量就越高,从而提高性能。事实上,FP4(Tensor 核)的性能对于 B200/1200W为20PFLOPS,对于B200/1000W 为 18PFLOPS,对于B100/700W 为14PFLOPS。
OAI系统采用了4x2冷板(即水管)回路,蓝色即低温液体先流入OAM 1-4上面的冷板,(吸热升温一些)然后再流经OAM 5-8的冷板。这就像风冷散热中一排气流先后经过2个CPU的散热片。
相比之下,8x1冷板回路Layout则将低温液体直接平均分配到8个OAM,这样不会有一半OAM温度偏高的问题,但包括水管在内的成本应该也会高一些。
4并2串与 8*1方案
H100 8+4(4并3串方案)
H3C R5500 G6 H100模组液冷4并3(2 GPU并+1Switch串)串
H100 8+4--GPU4并2串+Switch 2并2串
结合上述H100冷板方案,B200冷板方案思考如下:8个GPU和2个Switch共分为2组,上面4个GPU+1个Switch为一组,剩下的为另一组,两组液冷方案一样。每组冷板2进2出,上部2个GPU并联后与Switch串联,下部2个GPU也是并联后于相同的Switch串联,即Switch冷板上共4个进出水接头。
当然,分水器也可以设计为6进6出,即8个GPU用其中的4进4出,GPU采用4并2串的方案,2个Switch使用另外的2进2出,各自接到分水器上。此方案需要更多的考虑管路走线路径和空间的问题。但不论哪种方案,都需要经过详细的仿真评估和实际的整机结构设计而定。
HGX B200冷板方案思考
以上方案为个人见解,欢迎大家交流。
来源:产品工程技术
①凡本网注明"信息来源:热传商务网"的所有文章,版权均属于本网,未经本网授权不得转载、摘编或利用其它方式使用。
②来源第三方的信息,本网发布的目的在于分享交流,不做商业用途,亦不保证或承诺内容真实性等。如有侵权,请及时联系本网删除。联系方式:7391142@qq.com