深圳会展中心
名企面对面|潞晨科技:AI大模型的挑战与系统优化
新闻来源:高交会 发布日期:2023-11-21

  11月16日,新加坡国立大学校长青年教授、潞晨科技创始人兼董事长尤洋出席中国高新技术论坛,并在“改变世界的新兴科技”主题论坛中发表演讲,以下为精彩观点实录: 

  我今天主要介绍一下大模型训练的一些关键技术,我们公司打造了一个系统叫Colossal-AI,我今天会重点介绍一下如何通过更好的软件把硬件的价值发挥出来,同时大幅度降低AI 大模型训练部署的成本。 

   2016年-2020年,大模型一直是在高速蓬勃地发展,在短短四年之中,没有被大众关注的时候,它的参数已经增长了一万。很有意思的点是,我们这一波用的大模型都是人工神经网络,到2015年前后的时候,大家都叫这个技术是深度学习,它相对80年代的神经网络多了很多层。 

  现在的大模型,比如2016年的时候的Resnet50是50层,2020年的GPT3的参数没有超过100层,现在这种AI的技术不能再叫做深度学习,其实更像是宽度学习,模型的层反而变得更宽了。但是现在一个很严重的问题是算力、硬件跟不上,不管是中国还是美国,都无法充分地去满足大模型训练的全部能力。为什么?其实我们都知道,现在的GPT3、GPT4都需要上T 的内存,世界上最好的GPU,英伟达的8100只有100内存左右,单个CPU远远不足够去训练大模型,这就是为什么需要成千上万,甚至以后上十万GPU训练大模型的核心原因。 

  我总结一下,从AI技术发展看到的问题,首先大模型成本特别高,根据一些报道,Open AI的消息,他们训练GPT4的时候用了2000个GPU,成本是一美元一小时,大概是6300万美元,换上H100之后,他的成本降到2100万美元,直接换一个硬件,成本降了3 倍,省了4000多万美元,这还是非常让人眼前一亮的。即便我们现在想训一个不是那么大的模型,像Palm,相当于谷歌版的GPT,它有500个参数,训练它要900万美元,用A100训练的话,需要300年。我们训练大模型,如果只用几个GPU训练,虽然理论上可行,但是基本上这个产品就没法做了,300年变化太大了。 

   

  尤洋:新加坡国立大学校长青年教授、潞晨科技创始人兼董事长 

    

  我认为未来AI大模型的生态和基础设施应该包括六层,首先最下层就是硬件,不管是英伟达的硬件,还是英特尔硬件、华为的硬件。第二层是更底层的软件,这个软件一般是由硬件厂商控制的。第三层是像集成管理工具,RA、SLURM等这些工具。任务管理工具就是把上百个任务合理划分给GPU,相当于我是一个将军,要指挥一百个团作战,如何把有限的资源分给这一百个兵团,是集成管理工具要干的事情。第四层是集成训练,我的团内的这些士兵相互配合好去完成一个任务,这是分布式训练所做的事情。第五层是用户的编程接口。第六层是现在的大模型,不管是ChatGPT、Lmm等都是属于这一层。我简单解释一下,大模型到来的时代,第三层和第四层的关系发生很大变化,之前的模型不是很大的情况下,我们有一万个GPU,每天或者每个月要训10万个任务,任务数,一个GPU同时在训多任务,多个小任务驱动环境,使得这个集群管理工具变得非常重要。但是现在大模型时代的计算特点发生了实质上的变化,一个任务占据了1000个GPU,占据20天、30 天,或者一个任务占据5000个GPU一个月,它便成了每个任务都很重,所以任务之间的关系不是那么重要,我如果把任务内的上千个GPU分配好是比较关键的技术。为了应对目前的问题,我们团队打造了Colossal-AI这个软件,Colossal-AI主要包括三个层次,第一个曾经就是内存管理系统,我们希望通过Colossal-AI去大幅度降低AI大模型训练的内存开销。第二层就是变形技术,未来需要上千个GPU去训练,我把GPU的数量从十个上升到几百,能不能进行加速,GPU和GPU的数据传输和服务器与服务器的数据传输占满运行时间的80%到90%,我们的效率只有10%左右或者20%,这就是为什么英伟达要斥巨资收购ARM的原因。全国有很多算力,但是无法把它集中起来训练一个模型,因为这个数据传输的开销会远大于计算的开销,假定把内蒙古、北京、上海、天津各个分散的算力集中起来训练一个Chat GPT,它的训练速度还不到10个GPU的训练速度,因为它的所有时间都会浪费在计算上,因为这是现在大模型的特点,我们的大模型是很大的参数,把它分割成很多块之后,最终都是需要汇总结果的。