英伟达重磅推出最强AI芯片、机器人大模型，2万亿美元巨头要当AI革命工厂_黄仁_推理

出品 | 搜狐科技

作者 | 梁昌均

市值超2万亿美元的英伟达刚刚举办了一年一度的GTC大会。黄仁勋依旧身着皮衣，以“见证AI的变革时刻”为主题发表了两个小时的演讲。

黄仁勋首先回复了英伟达发展史，又提到了将首台DGX -1送给OpenAI的故事。DGX -1是英伟达打造了世界上第一台AI超级计算机，2016年捐赠给了OpenAI，一定程度上推动了后来的大模型的爆发。

“2023年生成式AI的出现，代表一个新的产业开始，我们现在正在使用计算机来生产以前从未出现过的软件。”黄仁勋表示，生成式AI将是未来，这需要新的加速计算。

他认为，加速计算已经达到临界点，传统的通用计算已经过时。“我们需要另一种计算方式，以便我们能够继续扩展，从而继续降低计算成本，从而使得我们继续进行越来越多的计算。”

大型语言模型从计算规模的快速增长中受益匪浅，正如黄仁勋提到，Transformer发明之后，大语言模型快速扩展，每六个月就能有效地翻一番。

“当看到ChatGPT的奇迹出现在我们面前时，我们意识到还有很长的路要走。”黄仁勋表示，未来仍然需要更大的模型，以及使用多模态数据来训练，让其学到物理世界的知识。

他认为，为了训练越来越大的模型，需要更强的算力，所以需要更大的GPUs，这需要建造芯片、系统、网络以及所有必要的软件来实现。在此次GTC大会演讲中，黄仁勋正式发布新一代架构芯片，并公布机器人等多个领域的布局。

最强AI芯片2080亿晶体管，能支持27万亿参数大模型

黄仁勋发布了新一代的名为Blackwell的GPU架构，其命名是向美国数学家、概率学家、博弈论专家大卫·布莱克韦威尔（David Blackwell）致敬。

以Blackwell架构打造的新芯片B200 GPU，总计包含2080亿晶体管，所有这些晶体管几乎同时访问与芯片连接的内存，内部传输速度达每秒10TB，没有内存和缓存的问题。同时，Blackwell芯片可以兼容Hopper。

“这是一个巨大的芯片，所以当我们被告知Blackwell的野心超出了物理学的限制时，工程师说那又怎样？”黄仁勋说到，需要大量的新功能才能超越物理极限。

黄仁勋还称，Blackwell架构采用了第二代Transformer引擎，可以提供FP6和FP4精度支持，采用了第五代NVLink高速互联技术。此外，它还安装了可靠性引擎，可以进行自我系统测试。“这是我们第一次这样做，这是安全的AI，使得代码不会丢失，也不会被污染。”

因此它能够实现对数据的加密，包括静态数据，也包括传输中的数据，当在计算时全部加密，使得计算处于可信的的环境中。此外，它还安装了高速压缩引擎，有效地将数据以20倍的速度移入和移出计算机。

英伟达还将组合的能力发挥到了极致。通过两个B200 Blackwell GPU与一个基于Arm的Grace CPU结合，打造出GB200超级芯片，两个超级芯片装到主板上，成为一个Blackwell计算节点，18个计算节点共有36CPU+72GPU，组成更大的计算集群。

这也带来更强大的性能和更低的成本。黄仁勋举例称，如果训练1.8万亿参数量的GPT模型，需要8000张Hopper GPU，跑上90天，消耗15兆瓦的电力。但使用Blackwell GPU，只需要2000张，同样跑90天只会消耗四分之一的电力，而且生成Token的成本也会随之降低。

“这就是我们的目标，不断降低成本和消耗的能量，以便我们能够继续扩展和扩大所必须的计算去训练下一代模型。”黄仁勋表示。

他认为，推理生成对大语言模型非常困难，但也非常重要，吞吐量将会决定提供服务的成本和服务质量。Blackwell的推理能力非常出色，其单GPU每秒Token吞吐量相较Hopper翻了30倍，黄仁勋称其是为万亿参数的生成式AI而设计的系统。

在多项技术支持下，超级芯片打造的新一代计算单元GB200 NVL72，在FP8（8位浮点格式）精度下，训练算力高达720PFlops，具备1.4EFlops的AI推理算力和30TB高速内存，最高支持27万亿参数的模型。与72个H100相比，GB200 NVL72对于大模型推理性能提升高达30倍，成本和能耗降低高达25倍。

在黄仁勋看来，生成式AI是一个全新的行业，英伟达的计算是为生成式AI时代而创建。“这需要大量的计算，token生成增加5倍，Hopper推理能力增加5倍似乎已经足够，但实际上还不够，所以需要更大的GPU，因此必须扩大它规模。”

黄仁勋提到，英伟达过去八年计算量增加了1000倍，而在摩尔定律的旧时代是每五年10倍，这很重要的原因在于英伟达打造了DGX计算集群。“就在六年前，它还很重，但我还是能够把它举起来，我将第一台DGX-1交付给了OpenAI的研究人员。”

随着新架构和新芯片的推出，新一代计算集群DGX GB200 SuperPod也正式推出，其通过采用新型高效液冷机架规模架构，标准配置可在FP4精度下提供11.5 Exaflops算力和240TB高速内存。在额外的机架扩展之后，最终可以成为包含32000 GPU的分布式超算集群。

在黄仁勋看来，英伟达DGX AI超级计算机，就是AI工业革命的工厂。“未来数据中心将被视为AI工厂，而对于生成式AI来说，Blackwell将会是一个了不起的系统，这种能力超级重要。”微软、AWS、谷歌、甲骨文等科技巨头将成为Blackwell架构芯片的首批用户。

推出新的AI推理服务，入局机器人大模型

黄仁勋还公布了数字孪生Omniverse和生成式AI的最近应用进展，包括在生物医药、物流制造、气候变化、智能汽车等领域的应用，同时发布了NVIDIA DGX云中的多项更新。

AI推理服务器NIM（NVIDIA INFERENCE MICROSERVICE）可用于开发和部署企业级生成式AI应用，提供了最快、性能最高的AI生产容器。“未来如何开发软件？与现在写一行行代码不同，未来可能就要靠一堆NIMs，用与AI聊天的形式调动一堆NIMS来完成训练、应用的部署。”黄仁勋说。

目前，NIM微服务可以用于部署NVIDIA、A121、Adept、Cohere、Getty Images和Shutterstock的模型，以及谷歌、微软、Meta、Hugging Face、Mistral AI和Stability AI的开放模型。

黄仁勋表示，英伟达的愿景是成为AI软件的晶圆厂。这也将在多个领域落地应用，比如医药公司可以利用来筛选药物、蛋白质结构预测、疾病检测等。目前，全球有接近50家应用程序提供商正在使用英伟达的医疗微服务。

黄仁勋现场还宣布，现在支持将Omniverse云推流至苹果Vision Pro。在英伟达播放的日产汽车如何将Omiverse Cloud应用在工作流中的视频中，工作人员可以戴上Vision Pro参与工作流程的管理。

英伟达发布了全新的DRIVE Thor车载计算平台，集成了专为Transformer、LLM和生成式AI工作负载而设计的全新NVIDIA Blackwell架构。

黄仁勋提到，比亚迪将采用英伟达新一代智能汽车芯片Thor，并将使用英伟达基础设施进行自动驾驶模型训练，以及英伟达Isaac来设计/模拟智能工厂机器人。

在气候变化领域，英伟达推出Earth-2，其可以帮助用户迅速提供警告和更新预报，且所生成的气候图像，分辨率高12.5倍，速度快1000倍，提高了准确性。

此外，在最近颇受的人形机器人领域，英伟达推出一款名为GROOT的机器人通用基础大模型，旨在进一步推动英伟达在机器人和具身智能的突破性工作。此外，英伟达还推出了适用于机器人的全新计算机Thor，在性能、功耗、尺寸都进行了优化。

“由GR00T驱动的机器人可以理解自然语言，并通过观察人类动做出自然的模仿动作。”黄仁勋表示，希望通过这一举措，让机器人拥有更聪明的大脑，提升动作的协调性、灵活性等。

目前，英伟达正在为Figure AI等多家人形机器人公司构建AI平台。活动最后，迪士尼打造的orange和green机器人来到现场和黄仁勋互动，这两款机器人用的是英伟达为机器人设计的首款AI芯片Jetson。

英伟达的这次发布业内关注到较高，其为生成式AI的未来再次打造了新的基础，不过资本市场表现平淡。最新美股交易日，该公司开盘一度涨超5%，收盘涨幅回落至0.7%，盘后则跌近2%，最新市值约2.21万亿美元。返回搜狐，查看更多

责任编辑：