中国国际高新技术成果交易会（高交会）官方网站_名企面对面

名企面对面｜潞晨科技：AI大模型的挑战与系统优化

新闻来源：高交会发布日期：2023-11-21

　　11月16日，新加坡国立大学校长青年教授、潞晨科技创始人兼董事长尤洋出席中国高新技术论坛，并在“改变世界的新兴科技”主题论坛中发表演讲，以下为精彩观点实录：

　　我今天主要介绍一下大模型训练的一些关键技术，我们公司打造了一个系统叫Colossal-AI，我今天会重点介绍一下如何通过更好的软件把硬件的价值发挥出来，同时大幅度降低AI 大模型训练部署的成本。

　　从2016年-2020年，大模型一直是在高速蓬勃地发展，在短短四年之中，没有被大众关注的时候，它的参数已经增长了一万。很有意思的点是，我们这一波用的大模型都是人工神经网络，到2015年前后的时候，大家都叫这个技术是深度学习，它相对80年代的神经网络多了很多层。

　　现在的大模型，比如2016年的时候的Resnet50是50层，2020年的GPT3的参数没有超过100层，现在这种AI的技术不能再叫做深度学习，其实更像是宽度学习，模型的层反而变得更宽了。但是现在一个很严重的问题是算力、硬件跟不上，不管是中国还是美国，都无法充分地去满足大模型训练的全部能力。为什么？其实我们都知道，现在的GPT3、GPT4都需要上T 的内存，世界上最好的GPU，英伟达的8100只有100内存左右，单个CPU远远不足够去训练大模型，这就是为什么需要成千上万，甚至以后上十万GPU训练大模型的核心原因。

　　我总结一下，从AI技术发展看到的问题，首先大模型成本特别高，根据一些报道，Open AI的消息，他们训练GPT4的时候用了2000个GPU，成本是一美元一小时，大概是6300万美元，换上H100之后，他的成本降到2100万美元，直接换一个硬件，成本降了3 倍，省了4000多万美元，这还是非常让人眼前一亮的。即便我们现在想训一个不是那么大的模型，像Palm，相当于谷歌版的GPT，它有500个参数，训练它要900万美元，用A100训练的话，需要300年。我们训练大模型，如果只用几个GPU训练，虽然理论上可行，但是基本上这个产品就没法做了，300年变化太大了。

　　尤洋：新加坡国立大学校长青年教授、潞晨科技创始人兼董事长

　　我认为未来AI大模型的生态和基础设施应该包括六层，首先最下层就是硬件，不管是英伟达的硬件，还是英特尔硬件、华为的硬件。第二层是更底层的软件，这个软件一般是由硬件厂商控制的。第三层是像集成管理工具，RA、SLURM等这些工具。任务管理工具就是把上百个任务合理划分给GPU，相当于我是一个将军，要指挥一百个团作战，如何把有限的资源分给这一百个兵团，是集成管理工具要干的事情。第四层是集成训练，我的团内的这些士兵相互配合好去完成一个任务，这是分布式训练所做的事情。第五层是用户的编程接口。第六层是现在的大模型，不管是ChatGPT、Lmm等都是属于这一层。我简单解释一下，大模型到来的时代，第三层和第四层的关系发生很大变化，之前的模型不是很大的情况下，我们有一万个GPU，每天或者每个月要训10万个任务，任务数，一个GPU同时在训多任务，多个小任务驱动环境，使得这个集群管理工具变得非常重要。但是现在大模型时代的计算特点发生了实质上的变化，一个任务占据了1000个GPU，占据20天、30 天，或者一个任务占据5000个GPU一个月，它便成了每个任务都很重，所以任务之间的关系不是那么重要，我如果把任务内的上千个GPU分配好是比较关键的技术。为了应对目前的问题，我们团队打造了Colossal-AI这个软件，Colossal-AI主要包括三个层次，第一个曾经就是内存管理系统，我们希望通过Colossal-AI去大幅度降低AI大模型训练的内存开销。第二层就是变形技术，未来需要上千个GPU去训练，我把GPU的数量从十个上升到几百，能不能进行加速，GPU和GPU的数据传输和服务器与服务器的数据传输占满运行时间的80%到90%，我们的效率只有10%左右或者20%，这就是为什么英伟达要斥巨资收购ARM的原因。全国有很多算力，但是无法把它集中起来训练一个模型，因为这个数据传输的开销会远大于计算的开销，假定把内蒙古、北京、上海、天津各个分散的算力集中起来训练一个Chat GPT，它的训练速度还不到10个GPU的训练速度，因为它的所有时间都会浪费在计算上，因为这是现在大模型的特点，我们的大模型是很大的参数，把它分割成很多块之后，最终都是需要汇总结果的。