行业新闻

黄仁勋刚刚发布，英伟达最强GPU B200，首次采用Chiplet？（上）

遥想2023年3月，英伟达举行了GTC 2023主题演讲，英伟达CEO黄仁勋不仅阐述了该公司在人工智能时代的诸多成就和对未来发展愿景的期待，同时也带来Grace Hopper超级芯片、AI Foundations云服务、AI超级计算服务DGX Cloud、全球首个GPU加速量子计算系统等在内的多款重磅硬件新品。

而在北京时间2024年3月19日上午，英伟达再次举办了一年一度的 NVIDIA GTC主题演讲，英伟达CEO 黄仁勋通过这次演讲，分享了新一代的AI突破，也让各位观众见证了AI的又一次变革时刻。

穿着熟悉皮衣的黄仁勋自然是这场演讲里的主角，“世界上没有哪一个会议有如此多样化的研究人员，其中有大量的生命科学、医疗保健、零售、物流公司等等，”他说，“全球价值 100 万亿美元的公司都聚集在 GTC。”

黄仁勋表示：“我们已经到了一个临界点，我们需要一种新的计算方式......加速计算是一种巨大的提速。所有的合作伙伴都要求更高的功率和效率，那么英伟达能做些什么呢？

下一代AI平台——Blackwell

随后登场的是Blackwell B200，一个更大的GPU，其命名来自于大卫·哈罗德·布莱克威尔他是一位专门研究博弈论和统计学的数学家，也是第一位入选美国国家科学院的黑人学者。

据英伟达介绍，B200的尺寸是“人工智能超级芯片”Hopper 的两倍，集成有 2080 亿个晶体管，其采用定制的两掩模版极限 N4P TSMC 工艺制造，GPU 芯片通过 10TBps 芯片到芯片链路连接成为单个GPU。这在上面有两个让人好奇的点：

首先，从技术上讲，虽然他们使用的是新节点 - TSMC 4NP - 但这只是用于 GH100 GPU 的 4N 节点的更高性能版本。这也让英伟达多年来第一次无法利用主要新节点的性能和密度优势。这意味着 Blackwell 的几乎所有效率增益都必须来自架构效率，而该效率和横向扩展的绝对规模的结合将带来 Blackwell 的整体性能增益。

其次，从字面上我们可以看到，这个全新旗舰将在单个封装上配备两个 GPU 芯片。换而言之，NVIDIA 终于在他们的旗舰加速器实现了Chiplet化。虽然他们没有透露单个芯片的尺寸，但我们被告知它们是“reticle-sized”的芯片，每个芯片的面积应该超过 800mm2。GH100 芯片本身已经接近台积电的 4 纳米掩模版极限，因此 NVIDIA 在此方面的增长空间很小 - 至少不能停留在单个芯片内。

黄仁勋指出：“人们认为我们制造GPU，但GPU的外观和以前不一样了。”

英伟达表示，新的 B200 GPU 通过其 2080 亿个晶体管提供高达 20 petaflops的 FP4 性能，配备 192GB HBM3e 内存，提供高达 8 TB/s 的带宽。对于他们的首款多芯片芯片，NVIDIA 打算跳过尴尬的“一个芯片上有两个加速器”阶段，直接让整个加速器像单个芯片一样运行。据 NVIDIA 称，这两个芯片作为“一个统一的 CUDA GPU”运行，可提供完整的性能，毫不妥协。其关键在于芯片之间的高带宽 I/O 链路，NVIDIA 将其称为 NV 高带宽接口 (NV-HBI：NV-High Bandwidth Interface )，并提供 10TB/秒的带宽。据推测，这是总计，这意味着芯片可以在每个方向上同时发送 5TB/秒。

由于英伟达迄今尚未详细说明此链接的构建，所以我们不清楚NVIDIA 是否始终依赖晶圆上芯片 (如CoWoS)还是使用基础芯片策略 (如AMD MI300)，或者是否依赖在一个单独的本地中介层上，仅用于连接两个芯片（例如 Apple 的 UltraFusion）。不管怎样，英伟达这个方案比我们迄今为止看到的任何其他双芯片桥接解决方案的带宽都要大得多，这意味着有大量的引脚在发挥作用。

在 B200 上，每个芯片与 4 个 HBM3E 内存堆栈配对，总共 8 个堆栈，形成 8192 位的有效内存总线宽度。所有人工智能加速器的限制因素之一是内存容量（也不要低估对带宽的需求），因此能够放置更多堆栈对于提高加速器的本地内存容量非常重要。

总的来说，B200 提供 192GB 的 HBM3E，即 24GB/堆栈，与 H200 的 24GB/堆栈容量相同（并且比原来的 16GB/堆栈 H100 多出 50% 的内存）。

据 NVIDIA 称，该芯片的 HBM 内存总带宽为 8TB/秒，每个堆栈的带宽为 1TB/秒，即每个引脚的数据速率为 8Gbps。正如我们之前所说，内存最终设计为每针 9.2Gbps 或更高，但我们经常看到 NVIDIA 在其服务器加速器的时钟速度上表现得有点保守。不管怎样，这几乎是 H100 内存带宽的 2.4 倍（或者比 H200 高出 66%），因此 NVIDIA 看到了带宽的显著增加。

最后，目前我们还没有关于单个 B200 加速器的 TDP 的任何信息。毫无疑问，它会很高——在后登纳德世界中，你不可能将晶体管增加一倍以上，而不付出某种功率损失。NVIDIA 将同时销售风冷 DGX 系统和液冷 NVL72 机架，因此 B200 并不超出风冷范围，但在 NVIDIA 确认之前，我预计数量不会少。

总体而言，与集群级别的H100 相比，NVIDIA 的目标是将训练性能提高 4 倍，将推理性能提高 30 倍，同时能源效率提高 25 倍。我们将在此过程中介绍其背后的一些技术，并且更多有关 NVIDIA 打算如何实现这一目标的信息无疑将在主题演讲中披露。

但这些目标最有趣的收获是干扰性能的提高。NVIDIA 目前在训练领域占据主导地位，但推理市场是一个更广泛、竞争更激烈的市场。然而，一旦这些大型模型经过训练，就需要更多的计算资源来执行它们，NVIDIA 不想被排除在外。但这意味着要找到一种方法，在竞争更加激烈的市场中取得（并保持）令人信服的领先地位，因此 NVIDIA 的工作任务艰巨。

与 Hopper 系列一样，Blackwell 也有“超级芯片”提供——两个 B200 GPU 和一个 Nvidia Grace CPU，芯片间链路速度为 900GBps。英伟达表示，与 Nvidia H100 GPU 相比，GB200 Superchip 在 LLM 推理工作负载方面的性能提高了 30 倍，并将成本和能耗降低了 25 倍。

最后，还将推出 HGX B100。它的基本理念与 HGX B200 相同，配备 x86 CPU 和 8 个 B100 GPU，只不过它设计为与现有 HGX H100 基础设施直接兼容，并允许最快速地部署 Blackwell GPU。每个 GPU 的 TDP 限制为 700W，与 H100 相同，吞吐量下降至 FP4 的 14 petaflops。

除了纸面性能的提升外，Blackwell还支持了第二代 Transformer 引擎，它通过为每个神经元使用 4 位而不是 8 位，使计算、带宽和模型大小加倍，而配备的第五代 NVLink能够为每个 GPU 提供 1.8TB/s 双向吞吐量，确保多达 576 个 GPU 之间的无缝高速通信。

英伟达还公布了由GB200驱动的GB200 NVL72，这是一个多节点、液冷、机架式系统，适用于计算最密集的工作负载。它结合了36个Grace Blackwell超级芯片，其中包括72个Blackwell GPU和36个Grace CPU，通过第五代NVLink互连。

新的 NVLink 芯片具有 1.8 TB/s 的全对全双向带宽，支持 576 个 GPU NVLink 域。它是在同一台积电 4NP 节点上制造的 500 亿个晶体管芯片。该芯片还支持 3.6 teraflops 的 Sharp v4 片上网络计算，这有助高效处理更大的模型。

上一代支持高达 100 GB/s 的 HDR InfiniBand 带宽，因此这是带宽的巨大飞跃。与 H100 多节点互连相比，新的 NVSwitch 速度提高了 18 倍。这应该能够显着改善更大的万亿参数模型人工智能网络的扩展性。

与此相关的是，每个 Blackwell GPU 都配备了 18 个第五代 NVLink 连接。这是 H100 链接数量的十八倍。每个链路提供 50 GB/s 的双向带宽，或每个链路 100 GB/s

此外，GB200 NVL72还包括NVIDIA BlueField-3数据处理单元，可在超大规模人工智能云中实现云网络加速、可组合存储、零信任安全和GPU计算弹性。与相同数量的英伟达H100 Tensor Core GPU相比,GB200 NVL72在LLM推理工作负载方面的性能最多可提升30倍，成本和能耗最多可降低25倍。