郑纬民院士：国产AI芯片当前问题是生态不够好，生态好性能做到60%也有人用_训练_模型

出品 | 搜狐科技

作者 | 梁昌均

“人工智能大模型现在从单模态向多模态发展，同时应用也很多，这使得算力爆发性增长，算力一直供不应求。”在7月7日的信百会2024年度研讨会上，中国工程院院士、清华大学计算机科学与技术系教授郑纬民在演讲中表示。

他提到，算力存在于大模型全生命周期，包括模型开发、模型训练、模型精调和模型推理。同时，算力还很贵，成本居高不下，如GPT-4训练用了1万块A100，开销达2亿美元，ChatGPT每天推理开销达70万美元。在大模型企业模型训练成本中，算力占70%，而在模型推理成本中，95%都是算力。

郑纬民表示，目前有三种支持大模型训练的系统，第一个是基于英伟达芯片的GPU系统，硬件性能好，编程生态好，但是不卖给中国，一卡难求，价格也贵了很多倍。

第二个是基于国产AI芯片的系统。“这些年国产芯片无论是软件硬件都有很大的进展，但是用户不太喜欢用，原因是国产卡的生态系统不太好。”

什么是生态系统好呢？郑纬民给出的定义是，如果原来用英伟达写了一个人工智能软件，现在很容易移植到国产系统上，写起来的方法跟原来差不多，就叫生态好。如果移植起来，没有一年两年移不过来，那就是不好。

“现在我们的状况就是生态不太好，所以大家不喜欢用。”郑纬民认为，这需要做好系统设计和相关软件优化，具体包括十个方面：编程框架、并行加速、通信库、算子库、AI编译器、编程语音、调度器、内存分配系统、容错系统、存储系统等。

他表示，生产AI芯片的厂家，一定要把这个十个方面做好，做好了大家就喜欢用。在郑纬民看来，在国产算力支撑大模型训练时，国产AI芯片只要达到国外芯片60%的性能，但如果把前述十个方面的软件生态新做好了，客户也会满意会用。

“大多数任务不会因为芯片性能只有60%而有明显感知，大家感觉到的不好用还是生态不行。即使你做的硬件性能是人家的120%，但如果这十个软件没做好，还是不会用。”郑纬民说。

第三种是基于超级计算机的系统。目前国内14个国家级超算中心，但机器用得不是非常满，那么用超级计算来做大模型训练行不行？

郑纬民认为可以，但需要进行软硬件协同设计，并有望节省训练成本。现场以Llama-7B的演示显示，使用国产超级计算训练相较英伟达芯片可节省成本82%左右。

除了算力，存储也存在于大模型的生命周期的每一环，包括数据获取、数据预处理、模型训练、模型推理等。郑纬民强调，内存对推理特别重要，如果内存改进，性能能有好几倍的提高，这意味着可以少买很多卡。

他认为，在存储系统设计中要考虑半精度与双精度运算性能的平衡、网络平衡设计、IO子系统平衡设计、做好内存设计，国产芯片则需要做好前述十个软件。

“如果把大模型基础设施平衡设计这些方面做好，别人用1万张卡，我们用9000张卡就可以了。”郑纬民表示。返回搜狐，查看更多

责任编辑：