联汇科技赵天成 卡耐基梅隆大学(CMU)「学霸」、联汇科技首席科学家赵天成,现在还记得当年在大学攻读博士时,看到谷歌的AlphaGO战胜人类顶尖围棋选手带给自己的震撼。当时已经看清传统「列规则」式的AI开发方式的弊端,转而研究「AI智能体」的他,选择了一条「前GPT模式」的AI之路,早在几年之前,已经预判大模型才是AI快速进化的正确路径。 回国加盟联汇科技后,赵天成和团队就开始打磨基础模型,将重心放在了多模态大模型领域,并在2021年就推出了首个自研的多模态大模型,与当下创业者仍在疲于「卷」文字大模型形成鲜明对比。 01 传统AI研究有上限, 要做没人敢做的事情 Q:你之前在加州大学攻读计算机专业,为什么后来又去了CMU进行语言技术方面的研究? 赵天成:我在UCLA电子工程系加计算机双修,差不多三年时间就修完本科专业课程,第四年主要攻读了一系列研究生课程,并且在UCLA语音技术实验室做语音处理相关研究,开始接触到人工智能和机器学习等前沿课题,激发了我很大的兴趣。 选择去CMU攻读计算机博士学位,是因为CMU在AI领域全球排名第一,去那里是所有AI研究人员的梦想。而去CMU计算机学院的LTI(语言技术研究所)是因为接触到语音处理技术之后,我感觉到这项技术,已经开始慢慢从学术界往工业界转移了,它本身的技术部分相对来说已经比较成熟了,我想去做更前沿的基础人工智能理论研究工业工程化相关的研究。 我当时判断既然语音识别作为语音感知层已经相对成熟,那后续的行业趋势肯定会做更深度的认知智能,比如理解语义,智能对话,甚至具有超出语言本身之外的推理与决策能力。CMU的LTI是这个领域全球最好的研究机构,那里的科学家研发了全球最早的语音识别引擎、机器翻译系统、人机对话系统等等,我相信在那里可以诞生出未来新一代的突破性人工智能技术。 Q:2014年你选择去做语音和语言研究的时候,当时的学术界是什么状态? 赵天成:NLP(自然语言处理)领域那时属于一个交接期。当时有一批人在做偏规则型研究,也有人在做偏机器学习型的研究,或者把机器学习和规则进行结合。 在2016年,我发表了业内最早的一篇端到端人机对话论文,讲如何用神经网络解决整个对话系统的问题。当时通常的做法是多个规则模块的拼接,而用一个神经网络来完成全部的对话还是很前沿的想法,和现在的ChatGPT很像。这个工作也提名了当年SIGDIAL最佳论文奖。 我当时提出的就是,应该用一个神经网络进行端到端的学习来实现智能对话,而不是用很多AI规则模块来做人机交互系统。 Q:这种灵感来源是什么? 赵天成:当时我分析了传统的对话系统,发现通过人工建立规则或者人工建立专家系统,虽然能在短期内对系统的能力会有一些提升,但这个提升是不可持续的,因为我们不可能穷举所有的对话场景,因此从长远看,要实现大的AI飞跃,正确的路线应该是减少人工干预,依靠更强的算力,让机器能更好地进行自学习来达到智能的提升。而不能陷入有多少「人工」,才有多少「智能」的怪圈,那样做只能让「人工智能」变成 「人工智障」。 但是要实现机器自我学习,这个过程中有很多挑战,因为一个人机交互系统会有很多复杂模块,需要做自然语言理解,把它解释成实体,在对话层面又要去做很多逻辑以及规划,这些都要通过一个神经网络去解决。 机器人小欧对画面深度理解|小程序搜索「机器人小欧」体验 <机器人小欧912-0813:45:06•> 这张照片描绘了一个美丽的山谷,山谷里布满了岩石、树木和蓝天。云朵点缀在雾蒙蒙的山上,创造了一个宁静而神秘的景象。蓝色天空的存在表明这是一个阳光明媚的日子,在背景下营造出宁静优美的氛围。远处的一些树木似乎小巧而高大,而一些岩石则悬垂在头顶上,为图像增添了艺术色彩。 但当时业界没有现在这么多的工具,在做的过程中,我们考虑的是从怎样的点入手,把最基本的闭环走通,然后以它为基础再去做扩展。这是我当时觉得比较容易实现、成为真正智能的AI的方向和路径。 Q:你在CMU读博期间,业内还没有大模型这个概念出现? 赵天成:当时还没有大模型这个概念,甚至连生成式模型都是少见的概念。 在硕博期间,我做了两件事情。我在硕士期间承接了一个美国科研自然基金NSF的项目,当时还没有智能音箱,我提出做一个智能体,其智能大脑可以融合各种各样的单任务智能体能力,可能是订餐,也可能是推荐地图,通过一个统一的智能体和用户交流。这在当时还是很前沿的课题,类似于现在ChatGPT的插件系统。我和团队在2014-2016年从0到1把整个平台做出来,作为基础科研平台,支撑了后续超过100多篇科研论文的发表。这个成果得到了亚马逊、谷歌等多位人工智能专家的充分肯定。 Q:当时做的就已经是大模型,只是没有像现在这种几百亿参数这么大? 做这个智能体的过程中,我发现靠传统的方式去做智能体其实能力上限很低。这启发我在博士课题中去做端到端的生成式模型,我认为只有这样才能真正从根本上解决这个问题。所以从2016年之后,我基本上所有的论文都是围绕怎样去做更好的生成式模型,把数据「注入」进去之后,它就可以完成更复杂的任务。 赵天成:对,只是在规模上不一样,在核心算法这一块非常接近,几乎没有差别。比如当时我训练的是1亿参数的模型,现在可能是100亿参数或者1000亿参数的模型。 Q:2016年AlphaGo出现了,当时也引起了非常大的反响,你当时有什么感受? 赵天成:当时触动很大。因为我当时做的就是生成式模型过程中最大的两个技术栈:偏神经网络的设计、训练和强化学习。 当时AlphaGo是强化学习一个很好的应用场景和成果。所以我们也考虑怎样让这种能力应用在现实场景中,因为AlphaGo本身的规则是固定的。但实际上我们在跟人机交互、自然语言、图像打交道的时候有无限的可能性,难度远远超出下围棋这个任务。所以我们花了很多精力去研究,怎样将AlphaGo级别的端到端的机器学习应用在更广领域,在2018年我们就提出了通过基于隐变量的强化学习,让智能体学会从人类反馈中获得更好的人机交互策略,大幅度提高任务完成的成功率,达到了当时的SOTA性能。 Q:在2019年和2020年左右,国内AI行业尚处于波谷期,为什么会选择回国创业做AI? 赵天成:因为我发现不管什么模型、什么技术,都需要有一些匹配的应用场景,去实现它的迭代和本身价值的体现。当时我们和国内有很多交流,发现其实国内不管是视频还是多媒体,有很多应用场景在美国可能很少见,国内反而机会更多。 一方面,国内做AI会有更大的应用空间,有更多的机会。另一方面,回国也是我的个人选择,我个人还是比较有家国情怀的一个人,在美国留学这么多年,我希望能把时间与精力放在建设自己的国家,综合决定之后,我选择回国实现我的理想。 02 做小模型定制, 是死路一条 Q:当时国内AI行业处于什么状态,联汇科技如何选择切入市场的角度? 赵天成:当时国内大模型几乎是未开启状态。很多大厂,包括华为、百度等也训练过一些模型,但当时大家还没有发现什么实际的价值。 我回来后分析了国内AI行业的痛点。当时很多行业都在做AI,比如零售人入客服AI等,这些基本上都是用传统的小模型方式在做的,定制化程度极高,而对小模型定制来说,他的瓶颈在于每个模型不能泛用,每个场景都要从头做起,无法沉淀积累,使得定制成本很高。这就导致了当时做AI商业化落地成为一件很累、很亏钱的事情。 经过研究分析,我们发现虽然市场有很多中长尾应用场景,但功能要求非常分散,这种情况和我们之前做智能体平台差不多。如果用小模型方式去做的话,很难走远。所以我觉得我们既然要做,就要去做有「未来」的东西,摒弃小模型的思路,专心于大模型。而且我们根据学术界的研究成果,判断大模型的行业爆发不会太远。 欧姆视觉语言大模型拥有主动思考分析能力 Q:当时你怎样让客户认识到这种技术案例的先进性?说服对方在这个方向投入? 息的,图片中石一个危幼.Y小痴日£出于仲出归1外,医可的会导住崎或受电LiX的行为可能很危院.因为映子通幽会失去平尚,从盲户掉节来,或在被向白I的城快件.不关过域1冷,成年人要交次情窗感寸,褥保他加的空全,井频I这种演险的行为. 赵天成:非常困难。当时还没有大模型的概念,我们尝试了很多方法去做科普,但几乎没人听得懂。 我们就尝试通过和其他产品PK来说明我们的路线优势,因为大模型和小模型一对比就能看到效果。比如在介绍跨模态搜索能力时,我们就和对方说以前的搜索都是需要打标签的,但我们的搜索只要通过自然语言说一句话,就能把东西搜出来,我们不用标签,或者说我们是「无限标签」。 Q:有没有给你印象很深的客户,你展示前他并不相信这些,展示后他被震惊到了? 但有时候不得不说我们有几万个标签,因为 这种概念其实很多客户也还是不理解,我们只能用更具象的方式去介绍。比如虽然我们是无限标签,这样能给他们一个具象的概念。这些都是我们在尝试落地时碰到的困难。 赵天成:比如某广电集团,他们也是我们比较大的一个客户。他们有很多视频媒体资料,比如新闻播报类节目等,以前一年要花几百万进行人工编目、打标签,来实现资产管理和检索。当时我们说可以 Q:这样的一个商业化方向是团队经过很长时间碰出来的吗?还是说你早就已经想到了场景和方向,只是根据客户不同来去提供支持? 通过机器学习,自动生成无限标签,可以实现任意检索,对方不太相信,我们就给他们做测试系统,让客户自己去验证。然后我们再从技术底层去讲解这个原理。经过几次使用和讲解之后,他们内部一些专业的技术专家也认识到这个技术路线的先进性,后续合作就比较顺畅了。 赵天成:虽然我们当时认为大模型一定是一个方向,而且我们也一直在致力于提高大模型的基础能力,但在商业化方向上,还是通过不断的市场探索,慢慢摸出来的。在寻找具体应用场景时,我们当时尝试了很多行业,也碰过很多壁。最终发现,最终我们聚焦在媒体视觉和IoT视觉这两大应用场景。 Q:从回国到成功落地这样的大客户,大概花了多长时间? 赵天成:差不多一年多时间。虽然在技术方面,我们之前在美国已经有了一些积淀,并不是回来之后从零开始做起。但在真正落地应用时,还是有很多需要改进。实际上要真正做到应用落地,需要大模型能力提升、工具链开发、应用场景确定、应用闭环开发以及商业模式确定等一系列因素结合起来才能实现,并不仅仅是技术问题。 Q:你回国的时候,国内「AI四小龙」很受关注,经过这些年,从这些公司的起伏中能学到什么经验?赵天成:我认为这些公司都很优秀,他们在小模型应用落地方面,做了很多尝试,在高频领域也有很多成功案例,但在中长尾领域都不太顺利。这也反过来验证了我的判断——如果用小 模型方式去服务中长尾场景,貌似是死路一条。 这样的判断,更加坚定了我们做大模型的决心。我们看到只要把大模型的商业道路走通的话,将具有巨大的市场价值。欧姆视觉语言大模型拥有四大核心能力 03 被动智能正走向主动智能, 一切都将被颠覆 Q:在ChatGPT出来之前,你已经预判到大模型技术的行业趋势,在这些年里,你对大模型的理解有什么变化? 赵天成:我是从2016年左右开始专注于端到端的生成式模型训练,其核心思想和如今的大模型训练如出一辙,也就是首先构建一个上限极高的神经网络模型,然后通过对大量的无监督数据进行自回归学习,实现原本需要N个专家系统模块组合而成的复合能力。在这些年里,对于大模型学习的最大变化在于对于这种学习方式能达到的上限与发展速度一次次地刷新了我的预期,也让我更加坚定这种方法论的正确性。 早年的时候,端到端模型能够实现AI对于自然语言的流畅生成,到后面能够根据用户的问题给出流畅的答复就已经是非常了不起的成果了。然而现在GPT-4可以不但进行流畅的语言生成与问题回复,还可以主动地选择不同的工具,并且产生思维与推理链条,这个在当时是不太敢想的。当时这个过程只能靠人工去定义,不可能靠AI自己做出来。 现在不管多模态大模型还是大语言模型,已经逐步具备自己去产生整