ChatGPT专家交流02171、ChatGPT出来之后,对我们国内相关产业的影响?国内相关的厂商,阿里、百度未来一段时间落地情况? A:关于从国家层面,GPT这个产品推出以后,网信办已经发出了一些政策相关的东西。 从国家层面的角度来说,短期内我们很难看到ChatGPT这些产品直接跟国内的应用,或者做比较深度的结合,因为这块不管是基于信息安全,还是国内的一些产业保护的角度来说,国内可能都得需要有这样一个窗口期,得需要有逐步缓冲的时间。 所以,国家后续会出台相关的政策,给国内的玩家们提供追赶的时机。 从我们之前对百度文心类似产品的使用体验来看,内容的质量上百度文心和ChatGPT差距不是特别大,只是在内容的多样性上有差距。 咱们国内研究相关的大模型的,目前主要靠工程人员和研发人员,大概几百号人或者上千号人这么研发,在这个过程中没有引入像OpenAI这种用户反馈机制,没有大量的用户在技术模型的迭代过程中参与进来。 所以在内容的多样性上会有所欠缺。 第三,可能跟目前实际没有放开政策有关系,就是比如像ChatGPT响应能力,一个Q过去,A回来大概是1-3秒,响应能力比较快。目前百度文心这边我们能够体验到的,大概短的在20秒左右,长的甚至在80秒以上。 当然这个不是技术瓶颈问题,需要在模型研发完成以后,我需要在服务器做部署,部署完之后支持数以百万计,甚至数以千万计高并发访问的需求,这块属于常态的部分。 未来3-6个月左右的时间,像百度文心、阿里推出类似于ChatGPT的产品应该可以达到目前ChatGPT60%-70%左右的水平。 2、ChatGPT出来之后,一开始在美国程序圈特别火,比如说从应用层面,或者算力层面有什么样对行业的影响?百度或者其他有没有正在加大投入的? A:先说一下整个参与的玩家,只说国内。 像百度已经宣布了,阿里达摩院也宣布了会投入3-5个亿的基金做这块。当然还有我们想不到的,比如说美团前合伙人也宣布下海做这件事情。 当然可能在其他的领域,包括您提到的字节,也对之前一些GPT2.0、3.0,可能以开源的模型作为基础,也做了一些相应的优化,也跟这些客户推相关的解决方案。 像字节也做了一些优化。 主要是训练过程,在云服务架构上,通用的算力部署,大概会有1.5-2.5倍的效率提升。 可能跟我们接触的部门有关系,它自己没有单纯的训练大模型,更多的想把服务包给愿意做大模型的公司。 这个模型训练的成本主要有三个方面,单纯从基础算力投入这块大概是384块到3000块左右的A100的投入,基本上可以满足要求。 这块的费用大概400-1000万美金,最多到3000万美金的规模,所以对于很多巨头、独角兽甚至一些初创团队,其实都有能力做这个投入。而且它的算法的基础都是基于预训练这样一种机制。 所以参与的玩家会比我们想象的要多。 关于技术跟行业结合的影响,短期内主要是有两个大的方向。 一个方向就是不管是谷歌也好,还是微软也好,肯定会跟搜索引擎做结合。这块主要是用来提升搜索引擎的信息获取的效率。 第二个大的方向,对于微软来说更加有优势,就是把类似于ChatGPT的这种技术跟办公软件做结合。因为跟办公软件做结合有一个好处,它可以提高日常生活工作的效率。 比如说处理表格,或者写一写小作文,类似这种可以提高效率。 而且可以很好的在工具软件的定位上,把一些资讯的敏感性过滤掉。 如果只是单纯的跟搜索引擎结合的话,这里面可能会有一些政策、政治、意识形态,类似这方面的影响。 而且从内容的提供信息给终端用户使用的角度来说,AIGC这种方式也存在一个被大家忽略掉的风险,以百度、谷歌来举例子,比如说传统的搜索引擎的提供商都是通过快照这种方式把信息抓取过来,实际上用户看到的是一个个的链接。 用户点进去这些链接查看自己想要的信息,出了问题承担责任的话,其实是可以通过这个链接找到一个最终的责任方。即使像之前百度跟莆田系的关系一样,尽管可能口碑不好,但是我可以找到莆田系的医院承担最终的责任。 但是目前以类似ChatGPT的技术,相当于对这些信息做了二次加工,这个责任的主体其实已经在这个过程中发生了变化。 所以这时候其实如果大家没有意识到这一点的话,可能承担责任的话,谁提供这个信息,谁提供这个产品,就变成了最终的责任方。所以在具体的内容呈现上,可能还需要做一些优化。 3、投入成本方面,您指的是比如说需要买算力芯片、服务器芯片的成本,还是算法工程师上面的投入成本?A:要做大模型的话,算法成本一共是包括三部分。 第一,刚才已经提到的这部分,基础的算力投入,这块大概是三四百万美金到一千万美金左右的规模,无非是我投入的少,训练的时间长一些,比如说170天,200天,大概这样的。 如果投入的多一些,像英伟达也在合作做大模型,五千亿的参数,我投入了3072块A100做训练,这块效率可以缩短到20-30天。这个成本在整个大模型训练过程中最少的。 真正的大头在数据采集、模型的技术迭代和优化过程中。 这一块需要堆集大量的研发人员、工程师、科学家做这方面的工作。 比如说数据采集,我们要抓取整个新浪、网易、搜狐、知乎这些网站的数据,因为这些网站都有反爬虫的策略,所以需要堆集大量的人员去写破解反抓取策略的策略,这块会耗费大量的人力和工程师的时间。 第二,引入用户反馈机制,这时候不仅仅是研发人员了,有大量的标注人员,有大量的用户参与,这块耗费的一个是时间长,另外一个是成本高。 对于OpenAI来说,每年在这块的投入在1亿到1.5亿左右美金的规模,这是比较大的地方。因为数据采集和处理的时间会远大于单纯训练的时间。 第三,模型正式上线了,运维和部署。 像ChatGPT一样,上线以后很快获得日活一亿左右的庞大的用户群体,这个过程中我要处理数以十万计,甚至数以百万计的请求。过程中需要堆集大量的服务器,需要做分布式部署,需要做负载均衡,甚至搭载网络安全策略,防止黑客攻击。 这个过程中还会产生大量的比如说电力的消耗,这块每年的成本至少在五千万美金以上。所以主要由这么三大部分构成的。 4、您说到的这几块,是不是也要分训练相关的成本,以及运营过程中的三块的成本。这块会有什么差异吗? A:比如说前两部分,我们都可以归纳为是训练的成本,第三部分可以归纳为服务正式部署上线之后运营方面的成本。5、像国内的浪潮、海光,他们跟英伟达这块的高算力相关的芯片,或者是服务器能不能支撑上。 如果说英伟达他们的芯片不能卖给中国的话,中国有没有类似的解决方案? A:从两个方面说,单纯讲芯片和算力的研发能力这块,我们肯定跟英伟达这些公司是有差距的。 不管您提到的浪潮、华为、寒武纪,哪怕研发出来最顶级的芯片,还是有比较大的差距,这是一块短期内应该还是比较难跟上的。即使我们在某些技术上有优势,但是最大的问题不是在单纯的技术上,而是在整个生态体系,这块英伟达非常完善。 我们可以分享一些数据,比如说在全球的超算中心,英伟达大概可以有90%的份额,全球的云服务中心,那边可以有80%的份额,这个其实在短期内很难改变的状态。 再从国内的这些不同类别的厂商,从采购高端显卡的实际情况来看,这种限制肯定会有影响,但是影响可能没有我们想象的这么大,可以说政策是政策,生意是生意。 比如说目前我们国内的四大巨头,像字节、阿里、百度、腾讯这四家公司,在ChatGPT火之前,去年的这些数据每年大概采购A100这种级别的显卡的数量,大致是在2.5万片左右。 像浪潮这些公司,英伟达那边提供了相当于稍微有点阉割的A100,或者H100同级别的显卡和芯片。基本上没有特别大的影响,至少目前来看。 6、像百度刚才您说到的一些,您觉得训练出来可能也差不多。从算法模型来说,因为ChatGPT3.5它是闭源了。 像百度、字节他们未来研发出自己的GPT产品,从过去的3.0开源版本找这些数据,去直接拿它的模型在上面改,还是说需要重新去搭建一个大的模型,这个具体在算法上大概是怎么样去做? A:这块目前比如说从字节那边了解到的情况,从阿里那边了解到的情况,基本上都是基于GPT3.0以前,就是开源那些东西拿过来去改,这个相当于是一个基础。 当然GPT3.0的基础也是以预训练模拟训练作为最底层的算法逻辑的。所以从这个角度讲,你可以理解为大家在通用模型上是一套东西。 尽管不会从0开始的这么一种状态,但是训练的时候OpenAI尽管细节我们没有办法复现,但是至少方向上是明确的。 比如说过程中引入用户反馈机制,用户反馈机制说起来高大上,但是实际上就是堆人,可以简单的这么理解,针对同一个A,我组织成百上千的人去组织或者提问不同的Q,针对同一个Q,组织成百上千的人去回复不同的A。 这个其实就是为了满足内容生成,就是预训练的时候我有大量的多样化丰富的数据,才能够满足AIGC这块基础训练的需要。其实目前百度文心这块欠缺的可能就是在这一点上,在内容的多样性上,丰富度上有差异。 因为之前我们不要说国内的公司了,包括国外的公司,包括谷歌这边其实也是一样的,它的整个研发过程中,其实普通的用户很少参与,都是堆积大量的工程师、科学家、研究人员做这个工作,在正式公测之前普通用户很少参与。 但是OpenAI经过前几个版本的迭代,在这个过程中发现了普通用户参与的好处,所以才推出了用户反馈机制,大家顺着这个思路做就好了。细节上可能没有完全复现,但是效果上不会有太大的差距。 7、在短期没有能够创造收益的情况下,您觉得这些互联网巨头可以持续做这个投入吗?年化下来费用大概总共是多少? A:其实对于OpenAI推出ChatGPT来说,在整个的领域,我们现在已经可以看到很多的迹象,不管是前美团的合伙人王慧文总,他自筹资金,搭建团队研发模型,还是说从目前一些招聘渠道,可能对NLP、AIGC相关人才的需求,我们已经可以看到这些迹象,大家都会增加这方面的投入。 之所以会增加这方面的投入,其实是因为OpenAI推出ChatGPT有点像一条鲶鱼,大家如果不跟上这波浪潮,有可能在未来会被甩掉,这是极有可能的。 所以目前大家基于被动防御的策略,我们可以看到不管是谷歌也好,百度也好,阿里也好,这些公司都在宣布往里面投入资金做模型。 所以相对比较短的时间内,因为还有后续的比如说GPT4这些东西不断的推出,所以在未来2-3年的时间里,在这种类似ChatGPT大模型的资本的输出,肯定是一个可以预见的一个地方。 8、如果放在中长期来看,最终的格局大概率国内就是一两个,两三个大模型最后能跑出来。现在可能有很多家去投,或者很多家已经有布局,最终要去做这个事情。 您怎么看待这个事,终极来看的话? A:如果终极来看的话,个人认为不管国内还是国外,一定会存在多家类似ChatGPT这种大模型。比如说国外谷歌和微软的关系,包括把苹果也拉进来,甚至特斯拉,我们举个简单的例子。 这些巨头都有可能研发自己的模型,而且他们所处的生态位或者产业略有差异。 比如说像苹果,它有大量的智能终端,把这个能力,或者自己研究大数据的模型跟Siri做结合。 它通过智能设备,比如说打开谷歌的应用,或者打开浏览器去做搜索,会更加的直接,有更高的效率。 再比如说像谷歌和微软,虽然短期内比如说微软借着这个风头,看起来具有领先的优势,它在短期内也的确可以影响到互联网、金融、投资、科技、人工智能相对比较精英的人士,比如说从日常习惯使用谷歌,转移到使用Bing上,但是它无法改变更大的格局,这个格局比如说像谷歌全球的市占率大概在90%还要多一些,Bing大概只有3%-4%之间,因为这些应用嵌入到很多硬件设备当中的,比如说电脑,甚至更多的属于中低端的智能手机设备,所以很难短期内有非常大的市场渗透率。 所以真正决定胜负关键的不是一时的得失,而是参与的玩家所处的生态位,这个生态位决定他可以快速的把这种能力推给他的用户,达到非常高的市占率。 9、如果我们