出品 | 搜狐科技
作者 | 梁昌均
市值超2万亿美元的英伟达刚刚举办了一年一度的GTC大会。黄仁勋依旧身着皮衣,以“见证AI的变革时刻”为主题发表了两个小时的演讲。
黄仁勋首先回复了英伟达发展史,又提到了将首台DGX -1送给OpenAI的故事。DGX -1是英伟达打造了世界上第一台AI超级计算机,2016年捐赠给了OpenAI,一定程度上推动了后来的大模型的爆发。
“2023年生成式AI的出现,代表一个新的产业开始,我们现在正在使用计算机来生产以前从未出现过的软件。”黄仁勋表示,生成式AI将是未来,这需要新的加速计算。
他认为,加速计算已经达到临界点,传统的通用计算已经过时。“我们需要另一种计算方式,以便我们能够继续扩展,从而继续降低计算成本,从而使得我们继续进行越来越多的计算。”
大型语言模型从计算规模的快速增长中受益匪浅,正如黄仁勋提到,Transformer发明之后,大语言模型快速扩展,每六个月就能有效地翻一番。
“当看到ChatGPT的奇迹出现在我们面前时,我们意识到还有很长的路要走。”黄仁勋表示,未来仍然需要更大的模型,以及使用多模态数据来训练,让其学到物理世界的知识。
他认为,为了训练越来越大的模型,需要更强的算力,所以需要更大的GPUs,这需要建造芯片、系统、网络以及所有必要的软件来实现。在此次GTC大会演讲中,黄仁勋正式发布新一代架构芯片,并公布机器人等多个领域的布局。
最强AI芯片2080亿晶体管,能支持27万亿参数大模型
黄仁勋发布了新一代的名为Blackwell的GPU架构,其命名是向美国数学家、概率学家、博弈论专家大卫·布莱克韦威尔(David Blackwell)致敬。
以Blackwell架构打造的新芯片B200 GPU,总计包含2080亿晶体管,所有这些晶体管几乎同时访问与芯片连接的内存,内部传输速度达每秒10TB,没有内存和缓存的问题。同时,Blackwell芯片可以兼容Hopper。
“这是一个巨大的芯片,所以当我们被告知Blackwell的野心超出了物理学的限制时,工程师说那又怎样?”黄仁勋说到,需要大量的新功能才能超越物理极限。
黄仁勋还称,Blackwell架构采用了第二代Transformer引擎,可以提供FP6和FP4精度支持,采用了第五代NVLink高速互联技术。此外,它还安装了可靠性引擎,可以进行自我系统测试。“这是我们第一次这样做,这是安全的AI,使得代码不会丢失,也不会被污染。”
因此它能够实现对数据的加密,包括静态数据,也包括传输中的数据,当在计算时全部加密,使得计算处于可信的的环境中。此外,它还安装了高速压缩引擎,有效地将数据以20倍的速度移入和移出计算机。
英伟达还将组合的能力发挥到了极致。通过两个B200 Blackwell GPU与一个基于Arm的Grace CPU结合,打造出GB200超级芯片,两个超级芯片装到主板上,成为一个Blackwell计算节点,18个计算节点共有36CPU+72GPU,组成更大的计算集群。
这也带来更强大的性能和更低的成本。黄仁勋举例称,如果训练1.8万亿参数量的GPT模型,需要8000张Hopper GPU,跑上90天,消耗15兆瓦的电力。但使用Blackwell GPU,只需要2000张,同样跑90天只会消耗四分之一的电力,而且生成Token的成本也会随之降低。
“这就是我们的目标,不断降低成本和消耗的能量,以便我们能够继续扩展和扩大所必须的计算去训练下一代模型。”黄仁勋表示。
他认为,推理生成对大语言模型非常困难,但也非常重要,吞吐量将会决定提供服务的成本和服务质量。Blackwell的推理能力非常出色,其单GPU每秒Token吞吐量相较Hopper翻了30倍,黄仁勋称其是为万亿参数的生成式AI而设计的系统。
在多项技术支持下,超级芯片打造的新一代计算单元GB200 NVL72,在FP8(8位浮点格式)精度下,训练算力高达720PFlops,具备1.4EFlops的AI推理算力和30TB高速内存,最高支持27万亿参数的模型。与72个H100相比,GB200 NVL72对于大模型推理性能提升高达30倍,成本和能耗降低高达25倍。
在黄仁勋看来,生成式AI是一个全新的行业,英伟达的计算是为生成式AI时代而创建。“这需要大量的计算,token生成增加5倍,Hopper推理能力增加5倍似乎已经足够,但实际上还不够,所以需要更大的GPU,因此必须扩大它规模。”
黄仁勋提到,英伟达过去八年计算量增加了1000倍,而在摩尔定律的旧时代是每五年10倍,这很重要的原因在于英伟达打造了DGX计算集群。“就在六年前,它还很重,但我还是能够把它举起来,我将第一台DGX-1交付给了OpenAI的研究人员。”
随着新架构和新芯片的推出,新一代计算集群DGX GB200 SuperPod也正式推出,其通过采用新型高效液冷机架规模架构,标准配置可在FP4精度下提供11.5 Exaflops算力和240TB高速内存。在额外的机架扩展之后,最终可以成为包含32000 GPU的分布式超算集群。
在黄仁勋看来,英伟达DGX AI超级计算机,就是AI工业革命的工厂。“未来数据中心将被视为AI工厂,而对于生成式AI来说,Blackwell将会是一个了不起的系统,这种能力超级重要。”微软、AWS、谷歌、甲骨文等科技巨头将成为Blackwell架构芯片的首批用户。
推出新的AI推理服务,入局机器人大模型
黄仁勋还公布了数字孪生Omniverse和生成式AI的最近应用进展,包括在生物医药、物流制造、气候变化、智能汽车等领域的应用,同时发布了NVIDIA DGX云中的多项更新。
AI推理服务器NIM(NVIDIA INFERENCE MICROSERVICE)可用于开发和部署企业级生成式AI应用,提供了最快、性能最高的AI生产容器。“未来如何开发软件?与现在写一行行代码不同,未来可能就要靠一堆NIMs,用与AI聊天的形式调动一堆NIMS来完成训练、应用的部署。”黄仁勋说。
目前,NIM微服务可以用于部署NVIDIA、A121、Adept、Cohere、Getty Images和Shutterstock的模型,以及谷歌、微软、Meta、Hugging Face、Mistral AI和Stability AI的开放模型。
黄仁勋表示,英伟达的愿景是成为AI软件的晶圆厂。这也将在多个领域落地应用,比如医药公司可以利用来筛选药物、蛋白质结构预测、疾病检测等。目前,全球有接近50家应用程序提供商正在使用英伟达的医疗微服务。
黄仁勋现场还宣布,现在支持将Omniverse云推流至苹果Vision Pro。在英伟达播放的日产汽车如何将Omiverse Cloud应用在工作流中的视频中,工作人员可以戴上Vision Pro参与工作流程的管理。
英伟达发布了全新的DRIVE Thor车载计算平台,集成了专为Transformer、LLM和生成式AI工作负载而设计的全新NVIDIA Blackwell架构。
黄仁勋提到,比亚迪将采用英伟达新一代智能汽车芯片Thor,并将使用英伟达基础设施进行自动驾驶模型训练,以及英伟达Isaac来设计/模拟智能工厂机器人。
在气候变化领域,英伟达推出Earth-2,其可以帮助用户迅速提供警告和更新预报,且所生成的气候图像,分辨率高12.5倍,速度快1000倍,提高了准确性。
此外,在最近颇受的人形机器人领域,英伟达推出一款名为GROOT的机器人通用基础大模型,旨在进一步推动英伟达在机器人和具身智能的突破性工作。此外,英伟达还推出了适用于机器人的全新计算机Thor,在性能、功耗、尺寸都进行了优化。
“由GR00T驱动的机器人可以理解自然语言,并通过观察人类动做出自然的模仿动作。”黄仁勋表示,希望通过这一举措,让机器人拥有更聪明的大脑,提升动作的协调性、灵活性等。
目前,英伟达正在为Figure AI等多家人形机器人公司构建AI平台。活动最后,迪士尼打造的orange和green机器人来到现场和黄仁勋互动,这两款机器人用的是英伟达为机器人设计的首款AI芯片Jetson。
英伟达的这次发布业内关注到较高,其为生成式AI的未来再次打造了新的基础,不过资本市场表现平淡。最新美股交易日,该公司开盘一度涨超5%,收盘涨幅回落至0.7%,盘后则跌近2%,最新市值约2.21万亿美元。返回搜狐,查看更多
责任编辑: