Q:我之前不太了解你们的大模型是怎么开发出来的,想从底层上面去了解一下,然后你们中间的语料灌的是怎么样的语料?我们现在的这个模型是处于GPT3还是3.5的一个水平?追上有没有难度?A:好的,底层架构是这样,我们之前有两套技术,两种架构的AI的产品线。之前我们在行业线,比如在我们阿里的阿里云还有淘宝,用的其实是上一代的技术,就是那些神经卷积的一些RNN、CNN的老一代技术,包括Tensorflow、Pytorch这种底座构建的一些产品和技术。 这个产品技术从2019年开始,阿里云有一个团队专门做机器学习平台的,这个平台它构建一个产品叫派pai,这个产品的底座就是Tensorflow、Pytorch这样的架构,在这个底座上面它有很多中小模型,包括文本的、图像的、视频的、人脸识别、科学训练等等,大概有140多种中小模型以及算法。 它提供这个平台主要是做一种深度学习的应 用平台,来给很多开发者和中小企业自己在这个新的平台上做数据的标注、模型的构建、训练、调优部署的前套服务。这个产品过去两年已经形成比较成熟的销售模式,而且一直都在卖,每年能够做十个亿。达摩院自己做的这个技术线最早是2017年,他们当时抽了大概三十多人来追踪海外的transformer这个技术线路,从最早的谷歌开源, 到2018GPT1、2019GPT2,我们都有人在追踪他们整个技术线路和这些开源的训练集、算法、模型架构。从2020年6月GPT3发布以后,它没有开源,这一段主要就 是从他们的论文去找线索,关于模型调优、一些先进的训练算法,我们来做一些参照。所以简单说技术底座来自transformer,从GPT2之后开始去做真正的建设和底座的夯实,中间这两年还是基于我们自己的训练集、数据集去做一些训练。我们的训练集主要是三大块,一块就是网上扒的数据,但是数据质量不够高,需要做大量的清洗,剩下大概30%多的数据可以用来做标注,然后再去训练。第二块数据是我们会去购买很多高质量的语料、高质量文本,包括小说、论文、专利、行业分析报告,还有一些专业网站上的一些作家、写手写的一些高质量文章,像知乎、国内的自研,还有海外的维基百科,加上我们自家投资的这些企业手上的一些数据,包括微博,但微博质量不 是特别高,因为大部分写手写的都是140个字,然后就是中文在线,因为它有几千个签约作家,有几十万个这种选手帮他写东西,质量还可以。第三块是我们自己在过去做互联网业务沉淀的一些数据,包括物流的数据、电商的数据,还有金融的数据,以及优酷等等,就是我们自家生态层面的数据。大模型我们现在都叫通义大模型,通义大模型现在还是有三个模态,第一个模态就是M6,它其实也 是一个文生图、图生文的模型,以及会把语音合成、语义识别这些技术融在里面。另外一个是跟自然语言相关的,专门处理文本生成、文本理解、文本分割、文本的摘要生 产等等。还有一块是视觉,专门做视频的提取、分割、编辑、生成这一块。今年主要是把文本这个产品先做商用,文本我们现在对标chatgpt还不够好,大概60多分,主要是体现在六个方面。 第一个方面是文本理解能力,这种能力我们基本上会用一些测试笔记去测试,包括我们会用一些训练样本,像文言文,目前这一块还是偏弱。第二块是多轮对话,chatgpt对几百轮都不会跑题,我们大概会对100多轮,百度大概也是四五十轮。第三个方面就是角色扮演,这是我们整体国内缺失的能力,它是让AI模拟一个作家的语气生成文字。第四块就是复杂问题推理,我们经常把一些逻辑题拿去问AI,这块整体偏弱,我们跟百度也就是五十来分, 比如我们把MBA考试的逻辑题或者是gmat上面的逻辑题拿给AI去做,我们自己大概能做对一半,chatgpt大概 能做对90多。还有一块是代码生成,我们国内整个代码生成的能力,大概只能做简单的小程序,比如俄罗斯方块这种小游戏,200行左右的,比较复杂的程序就生成不了,chatgpt可以生成上千行的程序,C++、HTML、Java、Python它都能生成,因为他们把Github上10亿行 的代码都学习了,然后在codex代码生成这一块非常强。还有一块叫文本摘要生成,就是把一个长文本扔进去让它帮你总结,这块我们比较弱,主要弱在文本不够长,GPT 4现在已经可以支持2500个字了,我们长度没那么长,可能只有几百个字,更长文本灌不进去。所以我们在这六大方面跟chatgpt的差距还比较大,大概会有30多分的差距。 Q:我们怎么样才能从3.5的水平到4? A:这里面有几个瓶颈,首先看3.5的时候它数据量是45个PB,到了4它就已经到PB级别了,1PB就是1000个TB,1000倍除以45,基本上数据量扩大20多倍。那这20多倍主要就是图片这一块的数据量,文本基本上在 3.5都训练完了,文本他只做增量训练,他这段训练更多的还是多模态图像、图片这两个语料的增加。它从3.5开始模型层级已经到了96层了,GPT4我们猜参数应该是6500亿到15000亿之间,然后它的整个模型的层级我们猜已经到了128层,国内的层级大概是在一半,64层左右,这种层级的差距会导致对长文本的吞吐能力不够。这种模型层级的差距主要还是在模型的设计、模型结构的难点知识的突破,还有就是创新水平,所以如果你的模型跨不了这个层级,你对于知识的吞吐和处理是不够的。这个是比较核心的一点,其他的一些算法其实我们也有,只是 可能人家是90分、100分,我们有这个能力,但没那么强。整体来看最核心的原因有两点,第一就是我们对海量数据的吞吐能力还不够,这个能力不够是因为我们的模型 架构的层级没到这么高。另外就是数据集本身也是有差距的,我们国内主要还是简体中文加上少量英文为主,我们国内的单词量其实在100亿level,然后人家已经到5700亿level,所以本来训练集上就是1:57的一个差距。然后第二个方面就是算力,我们国内还是拿老的V100还有少量的A100训练,海外已经用最先进的H100训练,V100跟H100比大概1:80,再加上你的层级是两个梯度,这样算下来你的训练效率就是它的1:160。第三个就是工程方面的一些差距,GPT4在去年8月份就出来,然后同步他又发布了一个叫EVA的模型评测工具,这个工具可以让很多调优的玩家或生态的伙伴,可以依托于这个EVA的 工具来自己对调优的结果进行评测。比如说他去年的模型大概是80%的精确度,然后他同步提供这个能力来给人家进行调优,调优的结果又会让openai来获取,它可以通过这种生态帮助他去评测模型的质量,然后他很快把这些反馈用来训练自己的模型,这就是他这七八个月干的事,把80%多的精度一直调到能够发布,一般是到90%以上的精度才可以发布。Q:这个层级的意思是说我们的大模型不够general, 还是说有部分神经元的算法做不好,就没有放在里面,所以现在是小模型的状态? A:现在也叫大模型,只是我们跟人家比还不够大。 GPT1、2、3一路走过来,12、24、48、96,然后120几,我们现在处于中间的状态,也就是我们的层级大概还相当于GPT2.5这个Level,还没有到96。它主要有几个强项,第一就是它可以吞吐长文本这种序列数据,所谓序列数据就是文本、语音、视频、图像,他们都是一段一段的,你的层级越高,你对序列数据处理长度就越长,这种长度就会决定你对数据吞吐的能力会比较强,这是一个核心原因。第二就是这种层级可以用来训练不同的数据任务算法,也就是在进入模型训练阶段的时候,我们给模型的每一层可以灌不同的数据,来分层进行训练,让每一层并行运算,并行去跑不同任务,然后通过同样时长得到不同的结果他们会把这些结果关联起来,上下文连接起来。相当于把一个很长的知识打散,打成九十几层,让不同的层级训练不同数据任务和算法,这样它的训练效率会比较 高。 Q:如果是分层,是不是它的逻辑跟搜索一样?A:搜索就是把知识打碎,放在某个地方让你检索,现在这个还不能跟搜索类比。可以举个例子,AI训练的过程其实是把知识打碎,把这些知识放在神经元,等用户推理 的时候,我就从神经元掉出来、推理出来,所以其实神经元越多,他挂的知识点就会越多。这种神经元需要把知识按照文本的语料放到不同层去训练,先去广泛的吸收进 来,放到我自己神经元上,然后在你推理过程中,他会用这种逻辑上的东西把它给拿出来。跟过去那种数据库检索不是一个逻辑,现在是你每次去问他的时候,他都实时推理出来给你,每次不一定完全一样,现在AI和过去AI很不一样的一点就是这样,过去是检索,现在是完全推理出来的。 Q:同样都是transformer的模型,谷歌和GPT它做 出来的效果就不一样,谷歌我感觉还是类似于搜索,GPT这个明显更加智能,所以我们想知道它的差异点是在哪里。 A:首先谷歌的T5也是transformer架构,transformer默认的这种架构有编码和解码两种使用场景,像GPT它只用了decode,Bert用了encode,而T5谷歌这两方面都用了。你说看起来它像搜索一样,其实不是,搜索是上一代技术了,在2016年之前行业都在用这个技术来做中小模型。它的缺点是文本和语言的长度不够长,过去的训练语料基本上能够吞吐几千万级别、上亿级别就已经很大了,过10亿级别根本做不了,所以才有了后面的LSTM,稍微再长一点,LSTM也是到了数亿级别 就到了瓶颈。到transformer以后一上来就是15亿的神经元参数,所以对知识的吞吐量就很不一样,整个逻辑跟过去数据库检索、关键词提取发生了质的变化了。 Q:为什么感觉谷歌的模型还是智商不行呢?跟GPT4比起来还是有很大差距,是来自于训练量不够,还是来自于模型的设计? A:谷歌之前没有allin这个架构,谷歌上面有很多技 术、非常多的模型,但是他每次发的模型都是60分,没有到达一个惊艳的状态,他就发出来给开发者用。但是本身模型都是脱胎于transformer,所以它架构上不会有问题,只是说它在工程层面比openai弱一点,没有把这个产品雕琢的够好、够细、够先进。但是谷歌毕竟有3万多的AI工程师,只要他allin,把这个focus再做聚焦一点,很快就会追赶上来,这一点我觉得未来几个季度就可以追赶上,人家已经注意到这个差距了。我们跟chatgpt的差距就完全不是这个level,首先人家的技术线路是一样的,只是在选encode、decode稍微有一点不同,那这种方法论不是造成双方差异这么大的核心原因。我觉得还是他之前没有这么聚焦,另外就是他自己在发布的时候不会像openai这样追求比较高的精度,所以在海外这两家会互相追赶,虽然openai暂时领先一点,我觉得半年或者不 到半年,谷歌会迅速追赶上来。Q:如果说大家的语料库都差不多,又是同一种方法训练,算力也充足,会不会造成最后两个模型很相似?A:有可能,随着时间的推移,最后就会出现几个类似 模型同时存在,国内国外都是这样的,国外可能会比较明显,因为国外算力都是一个level,模型架构相近,数据又差不多,完全有可能是openai90分,Google可能80分这样,这个差距会越来越小。这个情况到时候就像之前的操作系统一样,iOS、安卓都会存在,大家互相竞争。另外就是第三股势力,就是要开源的,openai现在不开源了,然后openai出来的那一家,还有runway,他们的东西未来都会被开源,有可能像之前的安卓开源一样,会存在这样的公司拿着一些开源的产品来继续去迭代,继续去做预训练,开源的东西可能只有六七十分,再往前做了90分拿来商用都是有可能的。 Q:国内现在都停留在3-3.5之间,你觉得最后这几家BAT再加上华为字节也都能做到4吗?还是说有本质差距? A:首先在未来的一年到一年半,我们国内都不要提GPT4了,只有先把chatgpt给追上。其他的文本、图像、视频我们以单模态的方式发布,没有把它合并成多模态。大家今年的重点都是想把文本先商用,百度已经走出 第一步了,虽然还不够好,紧随其后的我们、华为、百度在今年年中或者下半年都会发布。因为很多ToB的客户都是围绕着各自生态在做的,阿里有自己的数百万级的中小 企业