出品 | 搜狐科技

作者 | 梁昌俊

“现在大规模人工智能模型从单模向多模发展,同时也有很多应用,这就导致计算能力出现爆发式增长,计算能力已经供不应求。”在7月7日举行的新百汇2024年度研讨会上,中国工程院院士、清华大学计算机科学与技术系教授郑为民在演讲中说。

他提到,算力存在于大模型的整个生命周期中,包括模型开发、模型训练、模型微调、模型推理。同时,算力还非常昂贵,成本居高不下。比如GPT-4训练用了1万台A100,成本2亿美元,每天的推理成本70万美元。大模型企业的模型训练成本中,算力占70%,模型推理成本中,95%是算力。

郑为民表示,目前支持大模型训练的系统有三种,第一种是基于芯片的GPU系统,这种系统硬件性能好,编程生态也不错,但是不卖给国内,一卡难求,价格也贵很多倍。

第二是基于国产AI芯片的系统。“这几年国产芯片无论在软件还是硬件上都有了很大的进步,但是用户不太喜欢用,因为国产卡的生态系统不太好。”

什么是好的生态?郑为民的定义是,如果一个原本在上编写的AI软件香港澳门六开彩开奖记录开奖日期,现在能很轻松地移植到国产的系统上,而且编写方式和原来的差不多,那么这个生态就是好的。如果移植需要一两年以上的时间,那么就不算好。

“我们现在的情况是,生态系统不是很好,所以大家不太喜欢用。”郑为民认为,这需要好的系统设计和相关的软件优化,具体包括编程框架、并行加速、通信库、算子库、AI编译器、编程语音、调度器、内存分配系统、容错系统、存储系统等十个方面。

他说,AI芯片厂商一定要把这十个方面做好,做好了,人们才会喜欢用。在郑为民看来,当国产算力支撑大模型训练时,国产AI芯片只需要达到国外芯片60%的性能概述(2023澳门正版开奖结果)郑为民院士:国产AI芯片现在的问题是生态不够好,生态好的话,性能有60%大家就会用。,但如果以上十个方面的软件生态有新的完善,客户也会满意而用。

“大部分任务不会因为芯片性能只有60%而显得突兀,让人觉得不好用或者生态不好。就算你的硬件性能是人家的120%,这十个软件如果没有做好,还是没什么用。”郑为民说。

第三类是基于超级计算机的系统。目前,中国有14个国家超级计算中心,但机器利用率还不够。那么超级计算能用来训练大型模型吗?

郑为民认为是可以的,但需要软硬件协同设计,有望节省训练成本。Llama-7B的现场演示显示,使用国产超算训练,相比芯片,可以节省约82%的成本。

除了算力,存储也存在于大模型生命周期的每个环节,包括数据采集、数据预处理、模型训练、模型推理等。郑为民强调,内存对于推理来说尤其重要,如果内存提升了,性能可以提升好几倍,意味着可以少买很多卡。

他认为,在存储系统的设计上,需要考虑半精度与双精度计算性能的平衡、网络平衡设计、IO子系统平衡设计、以及良好的内存设计,国产芯片需要做好以上十个软件。

“如果我们做好大型模型基础设施的均衡设计,可以实现我们只用9000张卡,别人用10000张卡。”郑为民说。