Q:对于昆仑万维来说,目前我们看到是国内领先布局的AIGC的企业,昆仑万维未来如何实现商业化落地?哪些领域具有比较好的一些变现机会? 从商业化落地来看,目前业界可以分为两个方向,1)大模型本身的底座是这一轮AI革命的基石。制作出一个较好的中文大模型底座,必然能够在中国市场上获得很多商业机会。 2)面向ToC或者ToB的应用层。 ToB的应用层就是所 谓的降本增效,能够降低企业的成本、提升企业工作效率。ToC端,这一轮AIGC能够让C端创作优秀内容的成本大幅下降,速度、质量大幅提高,这样会形成新的类似于原来短视频平台一样的内容社区,整个商业机会非常大,昆仑万维的工作范围也会在这大模型底座领域以及应用层进行自己的努力和开拓。 Q:在应用领域环节,Tob端和Toc端发展有什么不同?ToB主要服务包括资讯媒体、音乐流媒体、游戏公司、视频平台制作公司等,ToC主要包括激发c端用户灵感,画家、写作、音乐等领域,您如何看待这两大领域未来潜在成长空间? 成长空间不好说。在c端,用户量巨大,增长速度非常快。这一轮AIGC主要就是各种端到端的内容创作工具,这种工具的使用越简 单,门槛越低,它获得的用户数也会成倍增长。所以c端的商业逻辑就是使用方法要足够简单,但创作出来的内容质量要足够高,那么c端自然就能获得大批量的用户,形成大量的内容社区。 在b端,目前AI生成内容或者是通用人工智能要和目前所有商业上的工作流结合,还有非常多细节工作要做。在各行各业落地时,需要大量工作。哪一个企业能够先把行业的AIGC彻底打透,让这个行业里面的用户都认为这是一个事实上的标准,那么它获得的优势或护城河将会长期持续下去。 所以,在b端,要针对行业打透打深;对于c端,就是尽可能制作出门槛足够低的内容创作工具,让用户能够更好、更快、更强地去创作内容,这两个商业逻辑其实有蛮明显的差异的,相对来说c端增长速度会更快一些。 Q:商业模式上,现在大部分免费产品适用的商业模式,包括流量吸引加平台改良的模式,对于未来相应AIGC的主流的商业模式会向哪些领域进行发展?调研显示有四 种,1)调用量的收费方式,2)SaaS订阅收费方式,3)增值服务方式,4)解决方案,您如何看待未来可能比较主流的4种的商业模式? 在国外目前来看最主流的方式是以API调用次数来进行收费的商业模式,c端有直接c端付费的模式。长期看,大模型还是通过生态来获取用户。因为一开始大模型有很大垄断地位,但随着大模型的普及,必然是针对行业的解决方案,能够在这个行业获得足够多的用户。 我认为这几种模式会长期并存,前期或对中小客户来说按api模式,但对行业大客户,一定是商业解决方案。长期来看API模式针对中小企业,针对大企业进行定制行业解决方案。 Q:公司包括昆仑天工里有几大模型,包括细分领域如天工巧绘、天工乐府、天工妙笔以及天工智码全系列AIGC的算法与模型。这些模型有什么不同?特色在哪里? 不同的模型解决不同的问题。预训练文本大模型上是一个相对通用人工智能的模型,我们这几个模型的基石都是预训练大模型之上面产生出来的。文本生成图像、文本生成代码以及文本生成音乐这几个方向也是针对日常工作流中 最常见的美术、音乐、程序工作者的使用而推出的行业子模型,我相信这是将来大模型生态的经典形式,即一个大 模型配上多个针对不同行业的子模型来协同完成工作。当然,如果只做通用人工智能,目前来看预训练的文本大模型仍然是目前最重要的一个基石模型。 Q:在一些专用领域上的模型,可能会涉及到图片视频的创作,很多比较关注多模态,比如从文本转向图片,或再进一步转向视频,图文视频这种跨模态的研发难点,目前来看主要集中在哪里?1)人类手上最大、最准确的数据集仍然是文本数据集,所以文本语言训练大模型是增长最快的。现在在网上抓取到的图片视频也非常多,但这些图片和视频大多未经标注,则需要大量工作去标注,这是非常消耗人力成本,导致了首先在数据上,图像跟视频的多模态大模型的训练存在门槛。2)因为图像跟视频的容量远超文本,需要的存储空间就更大,理解一段文本要消耗的计算能力以及理解图片和视频所需要消耗的计算能力完全不一样。比如训一个GPT3 或GPT4的大模型只需要1000张训练卡,训练图片跟视频时就需要1万张训练卡,消耗的训练资源以10倍这样的量级增长。 Q:昆仑万维一直倡导开源模型,您如何看待封闭式以及开 源大模型的未来的竞争?历史上,商业操作系统最早有很竞争者,最后windows 胜出,windows成为世界上客户端装机率最高的操作系统。但在windows之后,仍然有Linux这样的开源操作系统兴起,并且成为了windows的重要补充部分,他们长期竞争。到移动时代,既有闭源的ios,也有开源的安卓,可以看到,对于第三方厂商或者中小企业来说,使用开源的安卓系统是他们最优的选择。 所以长期来看,开源大模型跟闭源大模型永远是相互补充并存的关系,对于很多大企业来说,它可能愿意使用闭源的大模型;对于中小企业来说,则使用开源大模型,然后进行自己的二次开发和改造,使用这种模型更满足它的业务需求。所以对于有定制能力的企业来说,开源大模型是他们的最佳选择,对于没有定制能力的小企业来说,闭源模型是他们能够拿到的最好的服务。 Q:如何看待大模型高昂的研发投入成本?如何优化节省研发费用? 首先,计算费用高昂应该是一个短期的情况。因为任何事物在刚出现的时候成本一定是最高的,但是当全社会优秀的人才涌进这个行业之后,成本就会迅速下降。 成本下降主要是两个路径:1.算法底层的优化:比如原来的训练方式是否是最优的。一些开源大模型出来后,很多开源工作者发布了自己 的新方法,例如Stanford的羊驼法和Databricks的Dolly。大家都在发布各种各样的方法去迅速降低训练微调的成本。这在开源上表现是很明显的,业界会在软件上迅速地把训练成本降下来。训练成本同时间是有相关性的,随着时间流逝单位训练成本一定会逐步下降。 2.使用国产训练卡:目前的训练主要还是依赖于美国Nvidia公司的训练卡。长期来看,国内有很多硬件公司也在制作自己的训练卡。基于国产训练卡进行成本上的优化和下降也是可以预期的。但这条路比较艰难,速度应该没有软件优化来得快。 Q:我们关注到未来有云端和本地化两条发展路径,怎样看待未来的趋势? 并不是任何情况下都需要一个一千亿或者是一万亿参数的模型。在很多情况下一个几十亿参数的小模型,甚至一个几亿参数的小模型也能很好地完成工作。长期来看,对于一些垂直行业以及中小企业的特定场景而言本地部署是非常必要的。这样不仅能降低成本,而且还能更灵活地去应 对业务场景。而对于需要高质量以及大规模的应用的企 业,云端部署就成为一个需求。而且各自适用的场景也不一样,就像既有公有云也有私有云一样。在海外市场公有云大于私有云,在国内市场私有云大于公有云。所以这两 点也并不矛盾,它们是长期补充、长期共存的局面。 Q:大模型的安全问题,未来可能会有哪一些解决方案?之前Facebook和谷歌也发布了自己的大模型,但是由于言论安全上的问题,他们的模型受到了群众的大力抨击,因而回撤了。所以OpenAI的大模型取得成功,本质上也是因为在言论安全上取得了很好的进展,可以控制大模型生产出的有害言论。人类有很多种方法控制大模型,使其不生产出虚假和有害的内容。而且这种自监管也会越来越完善。所以从长期来看,我觉得这个行业的安全性其实是非常有保障的。因为对于言论安全的监督的技术研究一刻也没有停止,而且进化速度也比较快。所以我觉得在可预见的未来,它起到的正面作用会远远大于负面作用。 Q:现在就有很多的AIGC的应用已经渗透到公司的商业体系当中,未来可能还会赋能于哪一些应用或者哪一些行业? 这个问题比较难以回答,因为它涉及的行业太多了。我们可以用一个比较简单的条件判断:当一项工作只需在电脑 里完成,或在电脑里完成闭环,那么这项工作或行业受到AI的影响是最大的。以游戏举例,玩游戏就是在电脑里闭环完成的。但是如果牵扯到生产制造,交通运输等跟线下 有关的业务(比如送外卖,拿快递等),那么这些行业受到的冲击就会小很多。因为AI目前最擅长的还是解决同电脑打交道的问题。在电脑上我们主要使用的生产工具基本上是Office的自处理表格和演示,还有Adobe公司的各种图像美术创作工具,还有各家公司给程序员使用的编程工具。基本上由编程、美术、以及文本创作这几个领域能够完成的工作,都会受到极大的冲击。目前发展应用速度最快的仍然是程序员、美术制作师以及文艺创作者,他们受到的冲击可能是最大的。我们必须拥抱这个变化,让自己或行业能够快速地升级换代。 Q:为什么大家很关注游戏和AI的结合以及落地的进展? 第一,因为游戏本质上涉及娱乐产业。第二,游戏是对现实世界的一种简单模拟。首先游戏产业本身的更新速度非常快,它也愿意拥抱AIGC以及通用人工智能这样先进的技术。 其次,对于AI在游戏中的应用也能预测对于一个简单世界 的干扰,以及对于现实世界的改进。所以大家关注游戏对于AIGC技术的应用很正常,因为只有游戏既需要文本、也需要图像,也需要编程这三者的。 而这恰恰是就是目前AIGC工具最擅长的几个方向。 Q:未来浏览器和AI的结合会呈现哪些效果或AI会如何赋能? 浏览器本身是一个满足互联网长尾应用的重要平台。在移动互联网之后,很多信息及工作都由超级APP来完成,但是有很多长尾需求无法用其完成。这些需求在浏览器里面就被满足得很好。而且浏览器跟搜索引擎有一个天然的结合,它就是搜索引擎的重要入口。目前文本预训练大模型有两个很大的问题:一个是输出内容的时效性,一般是滞后于最新信息进展的。第二个是输出内容的准确性,是需要经过考证的。而把预训练大模型同搜索引擎结合起来,恰恰能够解决它的时效性与准确性的问题。这是一个非常长期的方向,能够满足大多数的长尾需求。 Q:通过Opera浏览器和GPT结合,是否有比较明显的效果(客户引流、浏览量增高等)? 我觉得效果还是非常明显的,但是因为合作时间还比较短,所以具体数据过一段时间才能给出来。但是目前从逻 辑判断,这个需求的刚性程度是非常强的。即通过浏览器更方便地使用预训练大模型的能力是非常天衣无缝的结合,我们非常看好它的前景。 Q:公司的哪些业务还与AI相关? 首先我们在上市前的确是以游戏为主营业务,在上市后实际上是依托游戏在海外进行了大量开拓,已经逐渐转型为以内容和社交为主的一个综合性互联网公司。目前我们旗下有全世界第三大的独立浏览器Opera,还有全世界最受欢迎的音乐社交平台StarMaker,以及传统游戏业务。介入到预训练大模型研发中间区域的原因也跟我们是一个内容公司有关。作为内容公司,我们会非常关注在AIGC的进展。因为它对于整个内容生成领域都是一个范式上的革命,所以在2020年6月份我们就注意到了GPT3这个大模型。当时认为这将是AIGC领域的一个巨大里程碑,所 以我们就开始成立团队去追踪。我们在2022年战略会上也提出整个公司的方向是AllinAIGC。我们作为一家全球的综合性互联网公司,在AIGC方面投入是非常必要,也是非常正确的。 Q:公司目前在多模态方面是否进行了重点涉猎和布局?如果仅仅指深层次多模态,我们早就有文生图、文生音乐 等工作了。但如果是指多模态的预训练大模型,这个在下一步的工作计划里,暂时不方便透露。现在所有人关注的是文本预训练大模型的成绩,这个是中国所有做预训练大 模型工作的公司都需要经过的阶段,目前来说为时尚早。 Q:视频生成中会用到扩散模型,您是如何看待这个应用的呢? 您说的是在图像生成领域内,分散模型实际上是取代了大家常用的Gain,它用来生成图片的时候效果并不是很好,但当引入了分散模型之后,图片生成的进展一日千里,目前已经可以完全替代人类工作,甚至比人类做的更好。分散模型已经成为文本生成图像公认的技术标准,当然未来有可能出现新的模型取代它。它的应用方向非常广,原来需要美术完成的工作,基本都可以通过分散模