您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:专访高雪峰:从GPT3.5到4,年度AI对话 –20230509 - 发现报告
当前位置:首页/会议纪要/报告详情/

专访高雪峰:从GPT3.5到4,年度AI对话 –20230509

2023-05-11未知机构张***
专访高雪峰:从GPT3.5到4,年度AI对话 –20230509

GPT4的超强推理能力,源于“图” 你在2021年开始创业时,那时OpenAI的GPT3应该已经出现了,当时行业里是怎么认知的? (cid:7253)(cid:10809)(cid:18)(cid:1954)(cid:1357)(cid:2605)高雪(cid:966)峰(cid:13536):(cid:16311)那时(cid:6347)开(cid:11850)源的是GPT(cid:7253)2。(cid:10809)大(cid:18)家(cid:1954)举(cid:1357)的例(cid:2605)子(cid:966)就(cid:13536)是:(cid:16311)你(cid:6347)看(cid:11850)OpenAI做了(cid:7253)几(cid:10809)年(cid:18)也(cid:1954)就(cid:1357)那样(cid:2605),(cid:966)(cid:13536)(cid:16311)(cid:6347)(cid:11850) 中国有啥大模型? 我在阿里时就负责大数据和AI的相关产品与解决方案,在大数据方面以离线和实时数仓,数据湖的产品为主,在IBM认知计算解决方案研究院里主要负责帮助企业智能化升级过程中需要的大数据,数据分析和AI的相关技术。 2021年,Snowflake缔造的神话,让很多人意识到了数仓的价值,因此那时很多投资机构跟我说:“雪峰你做数仓,数仓这个项目最火,估值也可以很高。 ” 但我不做。如果是在五六年前做数仓,我觉得可以做,因为数仓是面向BI的基础设施。但时代已经不同了,2021年,我想做的是AI核心基础设施。 所以我就跟很多投资人说,未来AGI的核心基础就是大模型和大图体系结合在一起,只有这样才能作为通用人工智能的支撑。当时大部分人认为大模型和大图都不靠谱。您提到的大图和大模型是AGI的基础,怎么理解? 高雪峰:真正做到AI需要两个名词,一个叫向量,一个叫符号,分别对应着大模型和大图。 向量就是概率,可以把大模型transformer理解成在向量领域计算概率,利用大量高维参数组成的向量,通过矩阵运算来计算概率。一长串字符之后是a,它会预测下一个字符可能是b,b之后可能是d,d之后可能是a,就是这种预测,最后用文本生成。不 (cid:7253)(cid:10809)(cid:18)(cid:1954)(cid:1357)(cid:2605)管是(cid:966)之(cid:13536)前(cid:16311)的(cid:6347)Ber(cid:11850)t,还是现在(cid:7253)广(cid:10809)为流(cid:18)(cid:1954)行的(cid:1357)各(cid:2605)种(cid:966)基于(cid:13536)P(cid:16311)rom(cid:6347)pt(cid:11850)s的多模态大(cid:7253)模(cid:10809)型(cid:18),(cid:1954)都(cid:1357)不改(cid:2605)变(cid:966)(cid:13536)(cid:16311)(cid:6347)(cid:11850) 它做概率预测这件事。 但它没有办法做逻辑推理,GPT3.5也没有办法做逻辑推理。 比如我们问它:姚明出生的那一年NBA季后赛的亚军教练是谁?这个看起来挺简单的问题,放到GPT3里,它就回答得乱七八糟。教练是谁也不知道,年份也弄错了。GPT3能猜对时间年份,但很多中国的模型会把那道题放在2002年。 为什么是2002年? 高雪峰:姚明出生那年是1980年,2002年应该是姚明第一次获得CBA冠军的时间,网上它的信息会很多,概率不知道问的是生日还是什么东西。 为什么我不问冠军?因为冠军宣传得多,亚军宣传得就少,问亚军的话它可能就乱了。这完全就是概率,看网上或wiki上哪个信息或更多一些。 但GPT4的逻辑推理能力是很强的,它可以很清晰地把我刚才的问题拆解,并准确回答。目前看来只有GPT4能够做到。 3.5和4中间究竟是什么技术的出现或者应用,导致了这种变化的发生呢? 高雪峰:抛开多模态的新能力,核心就是逻辑推理能力的提升。GPT4的推理能力变得非常强。就像刚才提到的,大模型就是计算概率,符号逻辑才能去辅助推理,图论是 (cid:7253)(cid:10809)(cid:18)(cid:1954)(cid:1357)(cid:2605)它最(cid:966)好(cid:13536)的(cid:16311)支撑(cid:6347)。(cid:11850)这就是为什(cid:7253)么(cid:10809)我们(cid:18)(cid:1954)要把(cid:1357)大(cid:2605)知(cid:966)识图(cid:13536)谱(cid:16311)而(cid:6347)不是(cid:11850)传统意义上(cid:7253)小(cid:10809)数(cid:18)据(cid:1954)量(cid:1357)图谱(cid:2605)的(cid:966)(cid:13536)(cid:16311)(cid:6347)(cid:11850) 力量融合在一起,才能具备核心的推理能力。 GPT4里一定加了很多推理的能力,但是具体怎么融合的,OpenAI不公开,我们也不得 而知。你直接问ChatGPT“你知识图谱的能力都用在了哪些部分?”,它就会回答“在预训练、 prompts的梳理都用到了图技术”。你再问“你用了一些开源的图的技术吗?”就会被告知“都是自研的技术”。后面就不会回答了。 为什么我说GPT不同版本的技术,推理能力的显著提升,一定跟图相关技术的结合是(cid:7253)(cid:10809)(cid:18)(cid:1954)(cid:1357)(cid:2605)密不(cid:966)可(cid:13536)分(cid:16311)的,(cid:6347)还(cid:11850)是从一个例(cid:7253)子(cid:10809)出发(cid:18)(cid:1954),用(cid:1357)这(cid:2605)个问(cid:966)题(cid:13536)来(cid:16311)去挑(cid:6347)战(cid:11850)各个LLM:(cid:7253)“姚(cid:10809)明(cid:18)出(cid:1954)生(cid:1357)的那(cid:2605)一(cid:966)(cid:13536)(cid:16311)(cid:6347)(cid:11850) 年的NBA季后赛亚军球队的教练是谁?” 目前来看,除了GPT4以外,其他的大模型都无法给出正确的答案。但是,如果我们 将问题拆解,“姚明出生在哪年?”“1980年NBA季后赛的冠亚军球队分别是谁?”“1980年,费城76人队的教练是谁?”,有很多优秀的LLM都可以给出对的答案。之所以出现这种落差,其本质还是GPT4在纯概率的模型之上进行偏向符号的逻辑推理,那一定会产生让人意想不到的结果。 先不说GPT4可以在很多专业的领域知识,比如很多经典的科学定律,规则等进行现象和逻辑的推理,至少从上面我们提到的很简单的例子里,在输入Token里关键实体与其逻辑关系的解析和提取上,我推测一定采用了一些与图有关的技术来进行处理。所以我们说代表符号和连接主义的工程实现,与代表概率和向量领域的工程实现融合在一起,才能体现出令人越来越惊讶的智能。 图的技术与Transformer的技术有很多可以结合的点:1.Transformer的训练架构接收图结构的数据,使得模型更好的理解输入数据之间的关联关系。2.用图结构的数据来训练Transformer模型。3.图结构的知识蒸馏,以应对细分领域的专家知识。4.损失函数的处理上结合图数据形式的重新定义。 就像我们人脑有个很典型的特点,比如去年的某一天,我在一个公园里遇到了一个多年未见的老友,相谈甚欢。那这个人的模糊印象(向量特征),与当时公园的环境, (cid:7253)(cid:10809)(cid:18)(cid:1954)(cid:1357)(cid:2605)天气(cid:966),(cid:13536)体(cid:16311)感((cid:6347)向(cid:11850)量特征),(cid:7253)以(cid:10809)及我(cid:18)(cid:1954)们在(cid:1357)做(cid:2605)什(cid:966)么事(cid:13536)情(cid:16311)((cid:6347)连(cid:11850)接关系)都(cid:7253)会(cid:10809)记(cid:18)忆(cid:1954)在(cid:1357)人脑(cid:2605)之(cid:966)(cid:13536)(cid:16311)(cid:6347)(cid:11850) 中。当我在到这个公园,熟悉的环境,我就可能通过发生过的这个链接关系,想起这个老友的样子。构建这样一个能够把实体,以及其连接关系,还有对应的向量特征融合在一起的多模存储与计算的大规模引擎,就是未来我们想要做的事情。 所以GPT3.5到4,在向量这个层面困难没有更多本质的变化了对吗?高雪峰:它可能参数更多,数据量也会更大。 质的飞跃,原因集中在符号这个层面? 高雪峰:对,没错。GPT具备推理上的能力,才是最恐怖的。比如根据物理学的原理或公式,我告诉它一个现象,它就会告诉我有什么结果发生,帮你做出推理。 毕竟,GPT3.5出来的时候,我们都没有感觉这种东西将马上颠覆世界,我觉得就是大力出奇迹,量变会带来质变的必然过程。包括NewBing出来后,其实都是围绕GPT在产品上做创新和变革,比如NewBing能把实时搜索出来的信息summarize并很好地组织起来,然后编辑适当的prompts调用大模型的API,得到结果后把结果组织起来反馈给产品上的客户。这其实就是产品的融合,并没有让我们太惊艳。 所以我们需要追赶的,不仅是大模型一件事。 (cid:7253)(cid:10809)(cid:18)(cid:1954)(cid:1357)(cid:2605)高雪(cid:966)峰(cid:13536):(cid:16311)我(cid:6347)们(cid:11850)很多本土(cid:7253)的开(cid:10809)源(cid:18)(cid:1954)大模(cid:1357)型(cid:2605)还(cid:966)停(cid:13536)留(cid:16311)在(cid:6347)拿大(cid:11850)量的数据(cid:7253)、(cid:10809)pr(cid:18)om(cid:1954)pt(cid:1357)s以(cid:2605)及(cid:966)(cid:13536)(cid:16311)(cid:6347)(cid:11850) transformer的性能上。但真正要实现一定是向量加符号的融合,这也是学术上大家都认可的方向。 向量就是概率,概率就是不可解释,符号的图论就是可解释,两者融合在一起才能走向真正的智能。GPT有思维逻辑,概率会补充思维逻辑,思维逻辑这张大图又会验证 概率,修正概率预测的参数模型,就可以实时且相辅相成地学习新东西。这就是我们未来通用人工智能所需要的智能。 这也是我们创业选择图赛道和方向的原因,因为大图和大模型是通用人工智能的两条(cid:7253)(cid:10809)(cid:18)(cid:1954)(cid:1357)(cid:2605)腿。(cid:966)(cid:13536)(cid:16311)(cid:6347)(cid:11850)(cid:7253)(cid:10809)(cid:18)(cid:1954)(cid:1357)(cid:2605)(cid:966)(c