Q:首先请您简单介绍一下您在任职期间,在AI或者算法领域负责过的内容和了解的方向。 ZBW:我之前在阿里的时候待过两个部门。第一是负责和内容安全、算法相关的工作,和现有大模型相关的情况,就是现在大模型内容合规的东西。 Q:首先请您简单介绍一下您在任职期间,在AI或者算法领域负责过的内容和了解的方向。 ZBW:我之前在阿里的时候待过两个部门。第一是负责和内容安全、算法相关的工作,和现有大模型相关的情况,就是现在大模型内容合规的东西。第二部分是做跟业务场景相关的,在旅游领域去做一些大模型落地的工作。最近快一年多是在某个大模型的研究机构,主要从事和大模型数据以及模型训练,包括微调、对齐,就全链路的大模型研发工作。大概一年多的时间,主要做跟语言大模型相关的研究和工作。 [00:02:17] Q:9月以来,ChatGPT有几次大的更新比较受到市场关注。一个是9月底GPT-4V的更新;第二个是10月底,ChatGPTPlus用户收到的多模态AllTools这个工具的更新;三是前几天GPT-4发布的GPT-4Turbo在开发者大会上新的这部分内容。这几块升级的方向跟提升的点主要在哪些,您可以介绍一下吗? ZBW:首先从技术上来说,GPT-4本身就支持多模态,就是图文多模态,然后GPT-4V已经是一个相对成熟的图文多模态模型。也就是说最开始的时候,其实GPT-4本质上是一个见过一定数量图文的模型,具有一定能力的图文模型。然后到GPT-4V的时候,它觉得已经把这两个模态训练得比较成熟了,然后放出来图文多模态模型的成熟版本。 测试结果、使用反馈这方面的话,多模态理解这件事情上,它已经是相对不错的水平。因为GPT-4V本质上还是基于语言大模型的技术框架放了图数据的模型,它和传统意义上的多模态模型的技术结构,或者传统意义上OpenAI自己的CLIP结构,是完全不一样的东西,你可以认为它是一个语言模型融合了图数据的语言模型版本。从能力上来说,它在图文的理解和图文之间的对齐,就是图的语义和文的语义这种对齐上,做得是比较不错的。但是既需要图也需要文的这种,就是非理解类的这种东西,它能力是一般的。像最简单的应用比如文生图上,它基本上还是要靠额外去调一个文生图或者图文编辑的模型,就额外的一个模型,它还要通过语言模型去调用外部的方式来完成它整个的操作。 [00:05:45] Q:在GPT-4的AllTools工具中,OpenAI将ChatGPT的browsing、advanceddataanalysis和Dall-E3整合在一起,还加了文件传输的功能。这使得模型能够自行决定调用何种模块执行任务,有分析认为,这种处理能力已 经非常接近AIAgent形态。从技术来讲,可以归结成它是一种AIAgent吗?不是的话,您认为差别在于什么地方?相比于之前,这个提升又在哪里? ZBW:其实GPT-4或者说整个ChatGPT也好,就整个GPT系列,它其实最强或者强出其他国产的模型或者Google这种聊天机器人模型,强出一个段位的点是在于它对用户指令的理解上。它是不是一个AIAgent的形态?只能说在AIAgent这条路上,它目前走的一条路是它不去做更专业的操作,而只通过调用tool的方式。刚才也提到了Dall-E3,其实是一个文生图模型,像dataanalysis也是一样,它很多数据分析的工具,包括你说的browsing,它所有的东西都是外部更专业的工具能够提供一个接口给它调,然后它知道什么时候该调用什么样的接口,以这样一个形式来完成初步的操作。 这种操作在短时间之内或者AIAgent在步入下一个技术时代之前,肯定是一个非常成熟的方式。比如Dall-E3变成Dall-E4,它这个东西你在用GPT-4AllTools这个东西的时候就会有更好的体验感。像一些数据分析的工具更专业化,它会提供更多的接口出来,那它就能够很好地把这些接口利用起来。在GPT-4里边去完成的实际上是一个大脑的工作,就四肢的工作由四肢去完成,大脑只负责分析这个任务,然后规划这个任务四肢怎么去协调,然后把这个指令发出来。 [00:08:28] Q:它的这个实现方式是基于MoE架构吗?还是说有一定的差异呢? ZBW:这个其实没有差异。而且这个从技术上来说,第一,MoE结构本质上跟AllTools这个事情没有非常强的关联,因为在没有AllTools之前,其实它也是MoE结构。之所以会用MoE结构是因为,比如原本GPT-3.5是一个千亿大模型,它们在尝试从千亿突破到万亿的时候,它们预期预测出来的是,因为预期预测出来的会遵循摩尔定律,那个摩尔定律是说当模型再扩大一个量级的时候,那个能力还能继续线性增长。它们发现这个东西从千亿到万亿去跨的时候,这个收益已经没有预期那么高了,于是它们开始尝试MoE这种方式。 比如我从千亿到万亿这个量级,既然它提升不了那么多,那我用八个千亿模型,传说中是八个GPT-3.5大小这样一个MoE模型。就是我用八个千亿模型的架构去架一个能够适配,比如原来GPT-3.5能够适配2,000多个任务,现在我有八个这样的,是不是能够在更多的,比如1万多个任务上也都能做得很好,就更多的是这样一个考虑。 其实你说AllTools这个东西,就工具调用这件事,本质上它只能算一个任务。比如在它的任务列表里边又扩展出了几个任务,大概就增加这样一个量级。从它们的技术人员对外的讨论中得到的小道消息,最多也顶多就是AllTools这个单看成一个专家模型,也就是再架一个,八个变九个这样一个情况。 [00:11:07] Q:目前内测用户的systemprompt也没有支持调用,它没有接入的原因跟考量您判断是因为什么?后续会有升级接入吗? ZBW:第一,国内和国外其实有很多可以调Tools的模型,这种模型现在已经做的事情很多,你可以认为是一个toymodel,它更多展示的是这个模型有巨大的潜力。因为模型在学习的时候,它通过一些简单的训练能够展示很好的适配调用接口的能力,它可以用很简单的方式把这种能力给激发出来。OpenAI之所以能够直接完成比如调用数据分析,包括文生图,它等于自己有这些资源,它把这些资源变成训练数据,让这些去学,能够直接通过产品的形式展示出来。比如换到国内,没有这些资源的人会怎么做?就假装有一些这样的接口,只要能够把这种能力展示出来就可以了。当然OpenAI这种数据分析和文生图已经是成型的应用,它可以 这样直接去用,但它真正值钱或者真正值得投资的是,比如未来跟一些business的合作,只要任何business的接口能够开放给它调用权限,它其实很容易无限地去拓展这种能力,它通过这种方式可以证明自己的潜力。 [00:13:17] Q:结合近期开发者日上面新的升级跟新的方向,您怎么看后续ChatGPT或者整个OpenAI升级的方向? ZBW:首先,其实ChatGPT和它真正背后的API,这是两件事情,因为ChatGPT展示的其实是一个toC的产品。这种toC的产品比如在AI,包括刚才讲Tools这个事情上,它肯定更多是展示它自己就可以调用一些接口。比如它未来能够接进来更多的接口,举个很蠢的例子,比如计算器,它发现用户对计算器这个应用有更强烈的需求,然后这个需求可能大模型完成不了,它在Tools里边再集成一个计算器接口就可以了。这些完全是一个toC产品的做法,就是它可以无限去拓宽,只要外部有一个更专业的工具可供它调用,而且它很方便调用,它就可以集成到ChatGPT这样的toC产品里边。 但是toB的话,相当于它通过ChatGPT这种展示,它可以去激发很多下游toB的合作。在那些合作里边,其实会有很多更有想象力的东西。比如人家有什么需求,它们就可以基于这个需求去做一些toB的微调。具体到这一次开发者大会,这次开发者大会更多是推出GPT-4Turbo。其实GPT-4Turbo它最大的对技术的冲击是它压低了成本。 这个东西要从ChatGPT开始说。它是基于GPT-3.5这个模型的,GPT-3.5这个模型是一个175B的,就是千亿大小的模型。现在国内的大模型对外主流推出来的,开源出来的大概是30B这个范围,闭源的就是大家马上准备对外做商用的,大概是50-70B这个范围。像文心一言背后的是100多B,就是跟ChatGPT初版是一个对标的情况。 到今年5月份的时候ChatGPT免费版更新,是把GPT-3.5更新成GPT-3.5Turbo。它在后面加了一个Turbo,但实际上Turbo这个东西在OpenAI命名的体系里边,其实是把这个模型做小了,我们猜测是蒸馏的模型。但实际上展示出来的情况是GPT-3.5Turbo是一个200亿模型,大概是原来的 1/10大小。它们推出Turbo的场景,我们做了大量的评测,从评测的角度来说,Turbo的推出基本上意味着,比如我把Turbo之前的版本叫大模型的最终版,它们的Turbo基本上小模型的第一版,即使赶不上大模型的终版,从能力上来说,也基本上是大模型middle的版本,就是从大模型V0到大模型最终的版本中间版本这么一个能力的情况。 今年5月份的时候,它们做了一个200亿大小的,就相当于1/10大小的免费的ChatGPT,然后替换掉原本的这个,从能力上来说降得不多。这次GPT-4Turbo推出也是一样的。至于大小,基本上能从价格上推算出来,这次GPT-4Turbo的大小是GPT-4的1/3到1/4这样一个范围。从能力上来说,应该说它们做这种发布就代表从它们内部评测上,它们认为这个Turbo虽然降低了成本,但是能力上不太输于原来那么大的版本。 [00:18:44] Q:它的这次升级里面还有一个主要的改进,可以进行128k上下文的输入。这块是基于怎样的能力上的提升?是蒸馏所带来的吗? ZBW:其实国内的各家也都会做相应的研究,这种研究更多是在大模型推理技术上的延伸。比如我这个模型原本是在4k或者8k这个长度上训练,但我能够保证它在比如推理到100多k的时候,效果不太下降,更多是推理技术的延伸。但是作为它产品来说,它肯定要主打这样一个事情,这也是一个版本能力的提升。 Q:您刚提到它这个模型大小,如果按降价幅度的话,它降价幅度大概是75%。它的上下文窗口从32k提升到128k,其实等于提升了四倍,这块相当于它分配给单一的API的算力还是一样的,可以这样去理解吗? ZBW:如果从推理的什么上来说,其实还是有差别的。因为本质上它降低了1/4,它虽然支持的长度变长了,它支持的长度变长之后,它每一次推理也不是一定要推理到那么长。就是它实际消耗的算力跟实际用户真实输入的长度是有关的。假如都拉满的情况下,比如我就一定每次都给它输到最长的情况下,就是它单次推理消耗的算力,和之前单次推理的消耗算力是一样。 [00:21:18] Q:您怎么看OpenAI这次升级对于一些在行业细分赛道的大型公司以及中小型创业公司的影响或者冲击呢? ZBW:它这次做的很多事情其实有点摧毁原本打算去做中间商的那些小的创业公司。其实大模型和最终的落地之间,原本会留一个第三方地带,很多小型的创业公司本来是指望在第三方地带去创造一些机会,就是把大模型和落地这件事情来做一个对接。这次它还开放了GPT-4的微调,就API的微调。 它开放微调之后,等于把这种创业的机会基本上给打碎了。当然国内还会有访问限制的问题,就大家也有一定办法规避,但国内多少还是会受限。国外像这种类型的创业机会基本上就不太有了。 Q:您刚提到的是它的GPTs吗,就是用户可以无需代码创建定制版的ChatGPT?还是它的AssistantsAPI的影响?这两块可以解读一下吗? ZBW:我之前不知道有这样一种形式。这个东西从技术上来说,相当于帮你去做定制化的微调。 Q:那您刚提到的不是这一块的影响,是更多开放微调所带来的影响? ZBW:不是。其实是这个,只不过我不知道它的名字叫这个,我没太关心它的那个产品叫什么名字。 [00:24:25] Q:关于它近期的更新,您认为还有哪些重点或者