值得买科技CTO王云峰2023-08-2814:18 谈到AI,早在2017年其主营业务“什么值得买”就开始尝试通过算法和机器的方式生产内容,2022年,此类内容的占比已高达20.31%。 “值得买有消费内容、营销服务、消费数据三大核心业务,对我们而言,大模型对业务的挑战是很大的。现在业界有一个说法:未来互联网上百分之90%的内容是由AI生成的。”谈到大模型给公司业务带来的冲击时,值得买科技CTO王云峰如是说。 值得买今年年初从原来的各Team中抽调出一部分人,成立了AILab团队,并率先开展了内容应用层面的研究。据王云峰透露,值得买在文、图、短视频、直播领域都在推进产品的开发,相应的应用也会陆续开始面对消费者和客户。 谈及为何这么做,王云峰表示,一项新技术的出现会伴有大量的不确定性因素,这个不确定性是需要通过预研的方式消弭的,也就是说一个新东西到来,你不知道谁比谁的好,也不知道最终应用的路径是什么样的,这时就需要有专门的资源做对应的研究和尝试。 据王云峰介绍,在模型训练层,值得买已经在60亿参数的模型基座上完成了全参数的Post-Training,正在130亿参数的模型基座上开展全参数的训练;应用层面,则主要围绕多模态的内容识别和生成、智能的用户画像和推荐、智能的营销策略三个方向开展研究。 “其实对于大模型而言,相比算力、经费和场景,更缺的是人才”王云峰补充道。 1 AI概念早就有,大模型不是万能的,还不能解决垂类问题Q:大模型今年一下就在国内火了?速度还是很惊人的。 王云峰:其实AI不是一个新概念了,AI技术的发展已经有60多年,GPT也可以叫做生成式AI——AIGC,算是一个相对新的概念。 Q:那GPT和之前的AI有什么不同? 王云峰:之前AI的功能是classification的概念更多一点,当然它也是AI的一部分,但更倾向于识别领域,新的AI技术其实更多的是生成式AI。 例如之前的MGC,即机器生成内容,机器生成也会用到大量的AI技术,主要是做前期的一些处理,但是它的生成过程不是靠AI,而是靠机器基于某些规则的方式来做。 Q:其实现在人们对大模型还是非常看好的? 去年年底国外的生成式AI确实给人们带来了一个很惊艳的感觉。最早的生成式AI走了两条不同的技术路线,以GPT为代表的这条技术线,去年年底真正“涌现”了出来。 王云峰:对,现在大家更多的是把它当成一个很惊艳的东西看,认为它有无限的可能。实际上,还没有完全弄清这个东西最终的应用限制会在哪里。大模型通用的学习和适应能力还是很强的。 但是它也有一定的局限,比如我们和GPT或国内模型对话时,举个例子,比如问怎么挑选茶叶的问题,它只会泛泛的告诉你要注意什么?很多时候,输出的内容并没有能够真正帮助消费者去决策。现实生活中,和卖茶叶的导购对话,他通常会很细致的回答你的问题,也会通过和你的对话来了解你的需求。但模型本身的特性,就意味着这个模型原始的语料是什么样的,学到的知识就是什么样的。这些知识它没有学过,所以有时候在某些领域的效果并不是很理想。 Q:为什么解决不了实际问题?毕竟很多人都认为大模型是万能的。 现在各种公众号喜欢举例的都是一些富有创造力、想象力的领域的东西,是那种说出来后没有所谓对错,看上去很新奇的内容,所以大模型可以很好地发挥,一旦落到非常垂直的领域,它的表现并不像其他领域那么理想。 王云峰:单纯的用现有的模型来构建应用,就是既没有微调,也没有自己做进一步的预训练,用的都是别人的东西,但是因为它的参数很大,所以看上去很智能。 Q:那应该怎么解决? 问题是某些垂直领域的原始知识,现有的大模型根本覆盖不到,所以没办法做很成型的应用,比如问一些行业的问题,可能输出的答案看着不错,但实际上会有错误。如果问它一些原始语料中不能覆盖的,且相对聚焦的问题,它的效果远没有预期的好。 王云峰:一种是在别家大模型的基础上做进一步的训练,相当于把自己服务的行业内的知识灌进去再做训练。我们知道大模型最开始是通过预训练的方式学习知识,然后通过微调的方式让它产生某种风格。这是一种做法。 2 Q:大模型火了之后,值得买内部有哪些调整? 蒸馏法训练垂类模型,应用层三条线齐头并进 王云峰:我们成立了AIlab,其实成立AIlab的核心原因在于,我们知道一项新技术的出现会伴有大量的不确定性因素,这个不确定性是需要通过预研的方式消弭。意思是一个新东西到来,你不知道谁比谁的好,也不知道这个东西最终应用的路径是什么样的,这时就需要有专门的资源做对应的研究。所以今年年初我们从原来各team里抽调出一部分人,成立了AILab这个新组织,目的是隔离资源,针对当下的新技术做预研,给出一个可使用的路径。 Q:对大模型对业务的冲击,值得买有哪些应对措施? 王云峰:现在业界有一个说法:未来互联网上百分之90%的内容是由AI生成的。所以我们必须提前做好应对。其实从今年年初时候,我们就开始研究生成式AI方面的应用了。最开始是用Prompt的方式来用,就是我不对模型本身做额外训练,我只是告诉它用某种方式帮我总结这段话的意思,这段文字看上去像是人写的。在这种情况下,对原来的内容生产方式就有一个很大的冲击了,所以我们很早就在内容生产方面开始尝试了。 Q:具体有哪几个项目? 但是我们做的更深入一点,我们训练自己的模型。除了语言模型,有一些“多模态”的工作,比如直播的支持、短视频的生成工作,我们也都在做。应对措施就是拥抱它,赶紧投入力量来做,脚踏实地地做。 王云峰:对于“多模态”的话,一是图生图的模型,包括图片批量生成,比如换背景图,换主图,其实都可以用自动生成的方式;我们内部搭了一个服务已经开始在用了。以及文生图的模型也在实际应用。 二是短视频脚本的生成。短视频脚本生成比较容易,然后就是短视频的自动生成;这个项目的难度要大一些,耗时也会更长。三是直播数字人,月底数字人直播应该会先发一个内部的Demo。 Q:为什么数字人直播难度大?对模型的要求高? 王云峰:数字人直播包含两个技术,一是形象,二是驱动。形象技术已经非常成熟了,难点在驱动方面。 在设计直播数字人时,你不可能让主播单纯地不停地说同一件事,直播间是要互动的,比如有人问你玉米口感怎么样?为什么这么贵?你是要回答问题的,有时候还有在直播间聊天的,你还要把他拉回来,这就要靠大脑驱动完成,这个大脑是要专门训练的。你不仅要了解产品,背后还要有一个对应的知识库做支撑,这个模型就是主播的大脑。 所以形象加上背后的大脑才是完整的数字人直播。形象基本是靠成熟的技术,也有很多供应商,后面的大脑就要自己训练了。 Q:所以这三部分是在同时做?还是分步做? 王云峰:我们在同步做,因为每个产品的难度不一样,所以推出的顺序也不太一样。现在有些东西已经开始逐步露出了,下一步可能会把某些能力包装成独立的产品。 过段时间会放开评论区对话机器人,到时候可以和机器人直接对话,但是也需要灌大量的数据做训练,数据越多,效果就越好。 Q:除应用层外,大模型方面有什么成果了吗? 王云峰:我们通过灌自己的数据、历史长文、历史攻略等做对应的训练动作,这个训练周期会比较长。因为是垂直领域,所以我们采用了蒸馏的方法。 Q:选的哪家的大模型? 王云峰:像垂类模型的训练我们尝试了不少的方案,但在实际过程中发现基础模型对结果的影响确实很大。 Q:至于选哪家大模型,有评测标准吗? 国内用的是GLM6B开源的60亿参数的模型,冻结了一些层,训练出了自己的一个模型,用于垂类消费内容的生产。现在正在做的是基于百川发布的13B的模型做训练。 王云峰:我们有一套标准的测试集,根据测试结果打分,然后再看整体分数。 Q:没有尝试国外的模型吗?毕竟现在国外的水平要高于国内的。 王云峰:国内外的都用过,包括Meta开源的Llama系列都尝试过。但最终还是选了国内的,因为我们觉得中文支持这件事是非常重要的。 Q:具体训练出来的参数量有多大? 王云峰:目前已经训练出了一个60亿参数的模型,正在训练130亿参数的模型。 3 Q:做模型训练包括应用层产品的研发,消耗的算力大吗? 算力可以用钱解决,人才是最大的难点 王云峰:如果推理的话,类似3090的卡就能跑起来,训练的话,对卡的要求就比较高了。 Q:算力是难点吗?好像现在大家都挺乐观的? 王云峰:对,我觉得算力问题会被逐步解决,但需要时间。其实算力分为两部分:一是训练,二是推理。推理用低端的卡能跑的动就行,训练的算力要求就很高了,但是从目前来看,我们自己储备的训练的算力还是比较理想的。 Q:解决算力主要看芯片吗?还是? 王云峰:我觉得最大的问题不在于芯片,而是生态问题。从长远看,算力问题一定会被解决,只是在目前它仍旧是个问题。但是生态问题就比较复杂,比如英伟达的A100或者H100,它本身就有一套自己的开发包cuda,有完整的生态。国内虽然也有卡,但问题在于没有构建起完整的生态体系。比如现在要在国内的卡上跑模型,是要做很多的所谓的“算子”的适配的。也就是说,想在N卡之外的卡上跑是要迁移的,且迁移成本还挺高的。我们现在也在和国内的合作伙伴,一起做国内的卡的适配。 Q:对值得买来说算力消耗的不大,那主要困难是什么? 王云峰:主要是人力不够,为了弥齐人才短板,我们除了从各Team抽调外,还和大量的外部机构合作,比如和人民大学的高瓴人工智能学院一起在做多模态的工作。 Q:所以最大的挑战是人才? 因为现在大部分人不仅选择文字交互,还可能用图片、视频等交互方式。像消费领域,有很多内容也是用视频这样的方式来承载的,所以我们选择和人大合作,预计9月份第一版的模型结果会出来。所以我们是通过两种途径补足AILab的能力,一是从各Team里抽调,二是和外部的创业公司或者高校实验室合作。 王云峰:对,算力是能用钱解决的,但是人才问题不是用钱就能解决的了的。过了算力这关你会发现有算力也没用,因为想要拿到一个好的结果,这个过程应该怎么训练,用什么样的方式训练是需要人去选择的。 大模型的应用有几种方式:一是纯粹的Prompt的方式,二是在大模型基础上做训练,三是把大模型作为框架中的一部分,再加上自己的逻辑框架。 其实是有一些框架的,比如把大模型作为前面的交互入口,后面挂一个知识库,这个知识库不是纯粹的像MySQL一样的知识库,它可能是一个知识图谱、一个向量数据库、一个基于embedding的数据等等。 那你究竟用什么方式、怎么串联起来,才能克服幻觉的问题拿到好的结果,这些都不是算力能解决的问题,是需要人去做选择的。 比如我们做的对话机器人就有很多选择:第一种,直接和大模型对话,通过提示的方式,把问题给到大模型,但是这个过程中,你会发现大模型的输出能力是有限的,每秒钟也只能输出几十个TOKEN,一次交互下来30秒出去了,用户肯定接受不了; 第二种,比如现在有一些对话框架的,就实际上它自身是一个框架,再外挂一个模型做识别,以保证交互的效率;第三种,把模型本身做入口,然后做一个插件,通过这个插件返回外部的数据库拿到事实后再进行内容输出。 究竟哪种方式可以,哪种是未来的趋势和方向是需要思考和判断的。 Q:也就是说大家还在试验阶段,还不清楚哪种方式更适合? 王云峰:对,这确实是个问题,或者说不同的场景下,用什么方式还没有范式。比如我们和合作伙伴沟通,有的建议先搭好大模型的框架,然后做插件,这样就可以利用大模型泛化的能力解决问题。但 也有不同的意见,究竟哪个更好,现在谁也不知道,需要根据自己的实际情况判断,所以最后看的还是人才。 4 大模型市场越来越繁荣,是好事也是坏事 Q:从年初到现在对大模型(GPT)有没有改观? Q:随着大模型的火热,国内外做大模型的越来越多,您怎么看? 王云峰:能力越来越强,进化速度越来越快了。主要是工程能力和智能能力变化的非常快,每天都有新的东西出现,但是我觉得还在发展中,还没有完全定型。 王云峰:是好事也