英伟达杀入光刻领域，DPU和GPU重磅更新，首次详谈云服务！

2023-03-23 09:12:53 徐继 109

pcba

在前段时间的GTC演讲中，英伟达CEO宣布了一系列的重磅芯品，当中不但包括了为中国专门准备的，基于H100改版而来的H800芯片。同时，公司还宣布了为生成式AI而准备的产品。

在这次演讲中，黄仁勋还带来了加速2nm设计的计算光刻等一系列产品，现在整理如下，与大家分享。

将旗舰 H100 调整为H800，出口到中国

据路透社报道，主导人工智能芯片市场的美国半导体设计公司Nvidia 已将其旗舰产品修改为可以合法出口到中国的版本。

美国监管机构去年制定了规则，禁止Nvidia 向中国客户销售其两款最先进的芯片，即 A100 和更新的 H100。此类芯片对于开发生成式人工智能技术（如 OpenAI 的 ChatGPT 和类似产品）至关重要。

路透社在 11 月报道称，Nvidia设计了一款名为 A800 的芯片，该芯片降低了 A100 的某些功能，使 A800 可以合法出口到中国。

周二，该公司证实它已经开发出类似的 H100 芯片的中国出口版本。阿里巴巴集团控股、百度公司和腾讯控股等中国科技公司的云计算部门正在使用这款名为 H800 的新芯片，英伟达发言人说。

美国监管机构去年秋天实施了规则，以减缓中国在半导体和人工智能等关键技术领域的发展。

围绕人工智能芯片的规则强加了一项测试，禁止那些具有强大计算能力和高芯片到芯片数据传输率的芯片。在使用大量数据训练人工智能模型时，传输速度非常重要，因为较慢的传输速度意味着更多的训练时间。

中国一位芯片行业消息人士告诉路透社，H800 主要将芯片到芯片的数据传输速率降低到旗舰 H100 速率的一半左右。

Nvidia 发言人拒绝透露面向中国的 H800 与 H100 有何不同，只是“我们的 800 系列产品完全符合出口管制法规”。

突破计算光刻，为2nm芯片制造奠定基础

在英伟达这次GTC大会上，下手ASML、TSMC 和 Synopsys突破计算光刻，助力行业跨越物理极限是另一个值得关注的亮点。

NVIDIA 表示，将加速计算带入计算光刻领域，使 ASML、台积电和 Synopsys 等半导体领导者能够加速下一代芯片的设计和制造，正如当前的生产流程已接近物理学的极限一样使成为可能。

英伟达在新闻稿中指出，用于计算光刻的全新 NVIDIA cuLitho 软件库被世界领先的晶圆代工厂台积电和电子设计自动化领导者Synopsys集成到其最新一代 NVIDIA Hopper™ 架构 GPU 的软件、制造流程和系统中。设备制造商 ASML 在 GPU 和 cuLitho 方面与 NVIDIA 密切合作，并计划将对 GPU 的支持集成到其所有计算光刻软件产品中。

这一进步将使芯片具有比现在更细的晶体管和电线，同时加快上市时间并提高 24/7 全天候运行以驱动制造过程的大型数据中心的能源效率。

“芯片行业是世界上几乎所有其他行业的基础，”NVIDIA 创始人兼首席执行官黄仁勋表示。“随着光刻技术达到物理极限，NVIDIA 推出 cuLitho 并与我们的合作伙伴 TSMC、ASML 和 Synopsys 合作，使晶圆厂能够提高产量、减少碳足迹并为 2nm 及更高工艺奠定基础。”

在 GPU 上运行，cuLitho 比当前光刻技术（在硅晶圆上创建图案的过程）提供高达 40 倍的性能飞跃，加速目前每年消耗数百亿 CPU 小时的大量计算工作负载。

它使 500 个 NVIDIA DGX H100 系统能够完成 40,000 个 CPU 系统的工作，并行运行计算光刻过程的所有部分，有助于减少电力需求和潜在的环境影响。

在短期内，使用 cuLitho 的晶圆厂可以帮助每天多生产 3-5 倍的光掩模——芯片设计的模板——使用比当前配置低 9 倍的功率。需要两周才能完成的光掩模现在可以在一夜之间完成。

从长远来看，cuLitho 将实现更好的设计规则、更高的密度、更高的产量和 AI 驱动的光刻。

“cuLitho 团队通过将昂贵的操作转移到 GPU，在加速计算光刻方面取得了令人钦佩的进展，”台积电首席执行官 CC Wei 博士说。“这一发展为台积电在芯片制造中更广泛地部署逆光刻技术和深度学习等光刻解决方案开辟了新的可能性，为半导体规模的持续发展做出了重要贡献。”

“我们计划将对 GPU 的支持集成到我们所有的计算光刻软件产品中，”ASML 首席执行官 Peter Wennink 说。“我们与 NVIDIA 在 GPU 和 cuLitho 方面的合作应该会给计算光刻带来巨大好处，从而给半导体微缩带来好处。在High NA 极紫外光刻时代尤其如此。”

Synopsys 董事长兼首席执行官 Aart de Geus 表示：“计算光刻，特别是光学邻近校正 (OPC)，正在突破最先进芯片的计算工作负载界限。“通过与我们的合作伙伴 NVIDIA 合作，在 cuLitho 平台上运行 Synopsys OPC 软件，我们将性能从数周大幅提升至数天！我们两家领先公司的合作将继续推动该行业取得惊人的进步。”

英伟达表示，近年来，由于较新节点中的晶体管数量更多以及更严格的精度要求，半导体制造中最大工作负载所需的计算时间成本已超过摩尔定律。未来的节点需要更详细的计算，并非所有这些都可以适用于当前平台提供的可用计算带宽，从而减缓了半导体创新的步伐。

晶圆厂流程变更通常需要 OPC 修订，从而造成瓶颈。cuLitho 有助于消除这些瓶颈，并使新颖的解决方案和创新技术成为可能，例如曲线掩模、High NA EUV 光刻和新技术节点所需的亚原子光刻胶建模。

Nvidia 宣布 BlueField-3 GA

Nvidia 今天宣布全面推出其 BlueField-3 数据处理单元 (DPU) 以及令人印象深刻的早期部署，包括 Oracle Cloud Infrastructure。BlueField-3 于 2021 年首次描述，现已交付，是 Nvidia 的第三代 DPU，拥有大约 220 亿个晶体管。与上一代 BlueField 相比，新的 DPU 支持以太网和 InfiniBand 连接，速度高达每秒 400 吉比特，计算能力提高 4 倍，加密加速提高 4 倍，存储处理速度提高 2 倍，内存带宽提高 4 倍。”

Nvidia 首席执行官黄仁勋在 GTC 23 主题演讲中表示：“在现代软件定义的数据中心中，执行虚拟化、网络、存储和安全性的操作系统会消耗数据中心近一半的 CPU 内核和相关功率。数据中心必须加速每个工作负载以回收功率并释放 CPU 用于创收工作负载。Nvidia BlueField 卸载并加速了数据中心操作系统和基础设施软件。”

早在 2020 年，Nvidia 就制定了 DPU 战略，认为 CPU 正因诸如 Huang 所引用的内务杂务而陷入困境。Nvidia 认为，DPU 将吸收这些任务，从而释放 CPU 用于应用程序。其他芯片供应商——尤其是英特尔和 AMD——似乎同意并已跳入 DPU 市场。

有时被描述为类固醇的智能网卡引起了人们的兴趣，但尚未转化为广泛的销售。变化现在可能正在发生。Huang 列举了“超过 20 个生态系统合作伙伴”，其中包括现在使用 BlueField 技术的 Cisco、DDN、Dell EMC 和 Juniper。

在媒体/分析师预简报会上，英伟达网络副总裁 Kevin Deierling 表示：“BlueField-3 已全面投入生产并可供使用。它的 Arm 处理器内核数量是 BlueField-2 的两倍，加速器更多，并且运行工作负载的速度比我们上一代 DPU 快八倍。BlueField-3 可跨云 HPC、企业和加速 AI 用例卸载、加速和隔离工作负载。”

Nvidia 的 DPU 瞄准超级计算机、数据中心和云提供商。在 GTC 上，Nvidia 吹捧了 Oracle 云部署，其中 BlueField-3 是Nvidia更大的 DGX-in-the-Cloud 胜利的一部分。

“正如你所听到的，我们宣布Oracle Cloud Infrastructure率先运行 DGX Cloud 和 AI 超级计算服务，使企业能够立即访问为生成 AI 训练高级模型所需的基础设施和软件。OCI [还] 选择了 BlueField-3 以实现更高的性能、效率和安全性。与 BluField-2 相比，BlueField-3 通过从 CPU 卸载数据中心基础设施任务，将虚拟化实例增加了八倍，从而提供了巨大的性能和效率提升，”Deierling 说。

在官方公告中，英伟达引用了 OCI 执行副总裁 Clay Magouyrk 的话说：“Oracle 云基础设施为企业客户提供了几乎无与伦比的人工智能和科学计算基础设施的可访问性，并具有改变行业的能力。Nvidia BlueField-3 DPU 是我们提供最先进、可持续的云基础设施和极致性能战略的关键组成部分。”

BlueField-3 在 CSP 中的其他胜利包括百度、CoreWeave。京东、微软 Azure 和腾讯。

Nvidia 还报告称，BlueField-3 具有“通过DOCA软件框架”的完全向后兼容性。

DOCA 是 BlueField 的编程工具，DOCA 2.0 是最新版本。Nvidia 一直在稳步为其 DPU 产品线添加功能。例如，最近，它加强了内联 GPU 数据包处理，“以实施高数据率解决方案：数据过滤、数据放置、网络分析、传感器信号处理等。” 新的 DOCA GPUNetIO 库可以克服以前 DPDK 解决方案中发现的一些限制。

按照英伟达所说，Nvidia 实时 GPU 网络数据包处理是一种对多个不同应用领域有用的技术，包括信号处理、网络安全、信息收集和输入重建。这些应用程序的目标是实现内联数据包处理管道以在 GPU 内存中接收数据包（无需通过 CPU 内存暂存副本）；与一个或多个 CUDA 内核并行处理它们；然后运行推理、评估或通过网络发送计算结果。

推出H100 NVL，用于大模型的内存服务器卡

Anandtech表示，虽然今年的春季 GTC 活动没有采用 NVIDIA 的任何新 GPU 或 GPU 架构，但该公司仍在推出基于去年推出的 Hopper 和 Ada Lovelace GPU 的新产品。但在高端市场，该公司今天宣布推出专门针对大型语言模型用户的新 H100 加速器变体：H100 NVL。

H100 NVL 是NVIDIA H100 PCIe 卡的一个有趣变体，它是时代的标志和 NVIDIA 在 AI 领域取得的广泛成功，其目标是一个单一的市场：大型语言模型 (LLM) 部署。有一些东西使这张卡与 NVIDIA 通常的服务器票价不同——其中最重要的是它的 2 个 H100 PCIe 板已经桥接在一起——但最大的收获是大内存容量。组合的双 GPU 卡提供 188GB 的 HBM3 内存——每张卡 94GB——提供比迄今为止任何其他 NVIDIA 部件更多的每个 GPU 内存，即使在 H100 系列中也是如此。

驱动此 SKU 的是一个特定的利基市场：内存容量。像 GPT 系列这样的大型语言模型在许多方面都受到内存容量的限制，因为它们甚至会很快填满 H100 加速器以保存它们的所有参数（在最大的 GPT-3 模型的情况下为 175B）。因此，NVIDIA 选择拼凑出一个新的 H100 SKU，它为每个 GPU 提供的内存比他们通常的 H100 部件多一点，后者最高为每个 GPU 80GB。

在封装的盖下，我们看到的本质上是放置在 PCIe 卡上的GH100 GPU的特殊容器。所有 GH100 GPU 都配备 6 个 HBM 内存堆栈（HBM2e 或 HBM3），每个堆栈的容量为 16GB。然而，出于良率原因，NVIDIA 仅在其常规 H100 部件中提供 6 个 HBM 堆栈中的 5 个。因此，虽然每个 GPU 上标称有 96GB 的 VRAM，但常规 SKU 上只有 80GB 可用。

而H100 NVL 是神话般的完全启用的 SKU，启用了所有 6 个堆栈。通过打开第 6个HBM 堆栈，NVIDIA 能够访问它提供的额外内存和额外内存带宽。它将对产量产生一些实质性影响——多少是 NVIDIA 严密保守的秘密——但 LLM 市场显然足够大，并且愿意为近乎完美的 GH100 封装支付足够高的溢价，以使其值得 NVIDIA 光顾。

即便如此，应该注意的是，客户无法访问每张卡的全部 96GB。相反，在总容量为 188GB 的内存中，它们每张卡的有效容量为 94GB。在今天的主题演讲之前，NVIDIA 没有在我们的预简报中详细介绍这个设计，但我们怀疑这也是出于良率原因，让 NVIDIA 在禁用 HBM3 内存堆栈中的坏单元（或层）方面有一些松懈。最终结果是新 SKU 为每个 GH100 GPU 提供了 14GB 的内存，内存增加了 17.5%。同时，该卡的总内存带宽为 7.8TB/秒，单个板的总内存带宽为 3.9TB/秒。

除了内存容量增加之外，更大的双 GPU/双卡 H100 NVL 中的各个卡在很多方面看起来很像放置在 PCIe 卡上的 H100 的 SXM5 版本。虽然普通的 H100 PCIe 由于使用较慢的 HBM2e 内存、较少的活动 SM/张量核心和较低的时钟速度而受到一些限制，但 NVIDIA 为 H100 NVL 引用的张量核心性能数据与 H100 SXM5 完全相同，这表明该卡没有像普通 PCIe 卡那样进一步缩减。我们仍在等待产品的最终、完整规格，但假设这里的所有内容都如所呈现的那样，那么进入 H100 NVL 的 GH100 将代表当前可用的最高分档 GH100。

这里需要强调复数。如前所述，H100 NVL 不是单个 GPU 部件，而是双 GPU/双卡部件，它以这种方式呈现给主机系统。硬件本身基于两个 PCIe 外形规格的 H100，它们使用三个 NVLink 4 桥接在一起。从物理上讲，这实际上与 NVIDIA 现有的 H100 PCIe 设计完全相同——后者已经可以使用 NVLink 桥接器进行配对——所以区别不在于两板/四插槽庞然大物的结构，而是内部芯片的质量。换句话说，您今天可以将普通的 H100 PCIe 卡捆绑在一起，但它无法与 H100 NVL 的内存带宽、内存容量或张量吞吐量相匹配。

令人惊讶的是，尽管有出色的规格，但 TDP 几乎保持不变。H100 NVL 是一个 700W 到 800W 的部件，分解为每块板 350W 到 400W，其下限与常规 H100 PCIe 的 TDP 相同。在这种情况下，NVIDIA 似乎将兼容性置于峰值性能之上，因为很少有服务器机箱可以处理超过 350W 的 PCIe 卡（超过 400W 的更少），这意味着 TDP 需要保持稳定。不过，考虑到更高的性能数据和内存带宽，目前还不清楚 NVIDIA 如何提供额外的性能。Power binning 在这里可以发挥很大的作用，但也可能是 NVIDIA 为卡提供比平常更高的提升时钟速度的情况，因为目标市场主要关注张量性能并且不会点亮整个 GPU一次。

否则，鉴于 NVIDIA 对 SXM 部件的普遍偏好，NVIDIA 决定发布本质上最好的 H100 bin 是一个不寻常的选择，但在 LLM 客户的需求背景下，这是一个有意义的决定。基于 SXM 的大型 H100 集群可以轻松扩展到 8 个 GPU，但任何两个 GPU 之间可用的 NVLink 带宽量因需要通过 NVSwitch 而受到限制。对于只有两个 GPU 的配置，将一组 PCIe 卡配对要直接得多，固定链路保证卡之间的带宽为 600GB/秒。

但也许比这更重要的是能够在现有基础设施中快速部署 H100 NVL。LLM 客户无需安装专门为配对 GPU 而构建的 H100 HGX 载板，只需将 H100 NVL 添加到新的服务器构建中，或者作为对现有服务器构建的相对快速升级即可。毕竟，NVIDIA 在这里针对的是一个非常特殊的市场，因此 SXM 的正常优势（以及 NVIDIA 发挥其集体影响力的能力）可能不适用于此。

总而言之，NVIDIA 宣称 H100 NVL 提供的 GPT3-175B 推理吞吐量是上一代 HGX A100 的 12 倍（8 个 H100 NVL 对比 8 个 A100）。对于希望尽快为 LLM 工作负载部署和扩展系统的客户来说，这肯定很有吸引力。如前所述，H100 NVL 在架构特性方面并没有带来任何新的东西——这里的大部分性能提升来自 Hopper 架构的新变压器引擎——但 H100 NVL 将作为最快的 PCIe H100 服务于特定的利基市场选项，以及具有最大 GPU 内存池的选项。

总结一下，根据 NVIDIA 的说法，H100 NVL 卡将于今年下半年开始发货。该公司没有报价，但对于本质上是顶级 GH100 的产品，我们预计它们会获得最高价格。特别是考虑到 LLM 使用量的激增如何转变为服务器 GPU 市场的新淘金热。

Nvidia 的“云”，服务起价 37,000 美元

如果你是 Nvidia 的忠实拥护者，请准备好花大价钱使用它在云端的 AI 工厂。

Nvidia 联合创始人兼首席执行官黄仁勋上个月在谈到这家GPU 制造商的季度收益时，提出了 Nvidia DGX Cloud 的计划，本质上是呼吁将公司的 DGX AI 超级计算机硬件和配套软件——尤其是其广泛的企业 AI一套软件——放到公有云平台上供企业使用。

我们必须申明，Nvidia 还不够富有，或者说不够愚蠢，他们无法构建云来与 Amazon Web Services、Microsoft Azure 或 Google Cloud 等公司竞争。但他们足够聪明，可以利用这些庞大的计算和存储实用程序为自己谋利，并在它们构建的基础设施之上销售服务赚钱，而基础设施又基于自己的组件。

DGX Cloud 的巧妙之处不在于有经过认证的本地和云堆栈来运行 Nvidia 的 AI 硬件和软件。您需要向 Nvidia 支付费用，才能以一种 SaaS 模式这样做——Nvidia 可以向您或云出售构建基础设施的部件。

就其本身而言，这是使AI 民主化的最新尝试，将其带出 HPC 和研究机构的领域，并将其置于主流企业的范围内，这些企业非常渴望利用新兴技术可以带来的业务优势递送。

对于 Nvidia 而言，DGX Cloud 的人工智能即服务代表着向云优先战略的强烈转变，以及一种理解——与其他组件制造商一样——它现在既是一家硬件制造商，也是一家软件公司，而公共云是一个使该软件易于访问并且更重要的是将其货币化的自然途径。

对于十多年前将 AI 置于其前进战略中心、构建以 AI 为核心的路线图的公司而言，这是重要的下一步。Nvidia 在 2016 年推出了 DGX-1，这是其第一台深度学习超级计算机。第四代系统于去年推出。2020 年出现了第一批DGX SuperPOD，一年后 Nvidia 推出了 AI Enterprise，这是一个包含框架、工具和相当大剂量的 VMware vSphere 的软件套件。

AI Enterprise 强调了软件对 Nvidia 日益增长的重要性——反映了其他组件制造商的类似趋势——这家公司现在从事软件工作的员工多于硬件。

借助 DGX Cloud，Nvidia 现在可以通过另一种方式将所有这些交付给那些希望在其工作流程中利用生成式 AI 工具（例如来自 OpenAI 的广受欢迎的 ChatGPT）的企业（通过 Microsoft），但没有资源在其内部扩展基础设施数据中心来支持它。他们现在可以通过云访问它，享受它所有的可扩展性和即用即付的好处。

Nvidia 企业计算副总裁 Manuvir Das 在 GTC 前会议上告诉记者：“多年来，我们一直在与企业公司合作，创建他们自己的模型来训练他们自己的数据。” “过去几个月，像 ChatGPT 这样基于非常非常大的 GPT 模型的服务越来越受欢迎，每天有数百万人使用一个模型。当我们与企业公司合作时，他们中的许多人有兴趣使用自己的数据为自己的目的创建模型。”

据最新介绍，租用 GPU 公司包罗万象的云端 AI 超级计算机的DGX Cloud起价为每个实例每月 36,999 美元。租金包括使用带有八个 Nvidia H100 或 A100 GPU 和 640GB GPU 内存的云计算机。价格包括用于开发 AI 应用程序和大型语言模型（如 BioNeMo）的 AI Enterprise 软件。

“DGX Cloud 有自己的定价模型，因此客户向 Nvidia 付费，他们可以根据他们选择使用它的位置通过任何云市场购买它，但这是一项由 Nvidia 定价的服务，包括所有费用，” Nvidia 企业计算副总裁 Manuvir Das 在新闻发布会上说。

DGX Cloud 的起始价格接近 Microsoft Azure 每月收取的 20,000 美元的两倍，用于满载的 A100 实例，该实例具有 96 个 CPU 内核、900GB 存储空间和 8 个 A100 GPU 每月。

甲骨文在其 RDMA 超级集群中托管 DGX 云基础设施，可扩展到 32,000 个 GPU。微软将在下个季度推出 DGX Cloud，随后将推出 Google Cloud。

客户将不得不为最新的硬件支付额外费用，但软件库和工具的集成可能会吸引企业和数据科学家。

Nvidia 声称它为 AI 提供了最好的可用硬件。它的 GPU 是高性能和科学计算的基石。但是 Nvidia 专有的硬件和软件就像使用 Apple iPhone 一样——你得到了最好的硬件，但一旦你被锁定，就很难脱身，而且在它的生命周期中会花费很多钱。

但为 Nvidia 的 GPU 支付溢价可能会带来长期利益。例如，Microsoft 正在投资 Nvidia 硬件和软件，因为它通过 Bing with AI 提供了成本节约和更大的收入机会。

人工智能工厂的概念是由首席执行官黄仁勋提出的，他将数据设想为原材料，工厂将其转化为可用数据或复杂的人工智能模型。Nvidia的硬件和软件是AI工厂的主要组成部分。

“你只需提供你的工作，指向你的数据集，然后点击开始，所有的编排和下面的一切都在 DGX Cloud 中得到处理。现在，相同的模型可以在托管在各种公共云上的基础设施上使用，”Nvidia 企业计算副总裁 Manuvir Das 在新闻发布会上说。

Das 说，数百万人正在使用 ChatGPT 风格的模型，这需要高端人工智能硬件。

DGX Cloud 进一步推动了 Nvidia 将其硬件和软件作为一套产品销售的目标。Nvidia 正在进军软件订阅业务，该业务的长尾涉及销售更多硬件，从而产生更多软件收入。Base Command Platform 软件界面将允许公司管理和监控 DGX 云培训工作负载。

Oracle Cloud 拥有多达 512 个 Nvidia GPU 的集群，以及每秒 200 GB 的 RDMA 网络。该基础设施支持包括 Lustre 在内的多个文件系统，吞吐量为每秒 2 TB。

Nvidia 还宣布有更多公司采用了其 H100 GPU。Amazon 宣布他们的 EC2“UltraClusters”和 P5 实例将基于 H100。“这些实例可以使用他们的 EFA 技术扩展到 20,000 个 GPU，”Nvidia 超大规模和 HPC 计算副总裁 Ian Buck 在新闻发布会上说。

EFA 技术是指 Elastic Fabric Adapter，它是由 Nitro 编排的网络实现，它是一种处理网络、安全和数据处理的通用定制芯片。

Meta Platforms 已开始在Grand Teton中部署 H100 系统，这是社交媒体公司下一代 AI 超级计算机的平台。

总结

在开幕的GTC上，英伟达还带来了多样化的产品，例如用于特定推理的的英伟达 L4 GPU。据报道，这款 GPU 可以提供比 CPU 高 120 倍的人工智能视频性能。它提供增强的视频解码和转码功能、视频流、增强现实和生成 AI 视频。

此外，英伟达还联合客户打造由 16 个 DGX H100 系统组成，每个系统配备八个 H100 GPU的生成式AI超级计算机Tokyo-1。根据 Nvidia 的 AI 触发器数学计算，这相当于大约一半的 exaflop AI 能力；由于每个 H100（一开始将有 128 个）提供 30 teraflops 的峰值 FP64 功率，因此它应该达到大约 3.84 petaflops 的峰值。

由此可见，黄仁勋正在带领英伟达走向一个新阶段。