(一)GPT-4相比于之前的版本主要跨越了哪些方面? 1.逻辑推理能力非常强。GPT-4的逻辑推理能力甚至可以媲美一些律师,而之前的ChatGPT只具备一些文本处理的能力。 推理能力、通识能力和问题解决能力。 相比于GPT-3,GPT-4的推理能 力主要体现在解决复杂的数学推理题,甚至是一些高考题。GPT-4回答问题的正确率比之前的ChatGPT提升了80%左右。比如,之前的ChatGPT根据不同人的时间窗口去安排会议的问题,给出的往往是错误的答案,但GPT-4的表现要优秀很多。在SAT的考试比赛上,GPT-4能够达到140分的一个水平,而原来的GPT-3只能达到100分的水平。 2.多模态信息的处理能力。现在的GPT-4已经可以支持图片的输入,而不仅仅只是能分析文本序列信息。这是GPT-4的一个非常强大的跨越点。 图片的理解能力主要体现在它可以对于人类拍摄的照片或给出的些图片给出比较合理的解释或理解。之前的ChatGPT是完全不能够看图片的,只能通过文本的形式去交互。而GPT-4甚至可以理解一些比较搞笑的图片,或者通过一些做菜的图片,可以想象出能够做出的菜品,甚至可以帮忙整理图表数据,抽取图表的核心内容。我们上传一些日常生活中拍摄的照片,来跟他进行交流,他也可以对照片给出一些有意思的评论。但是,GPT-4目前还不能理解视频信息。在未来大概一到两年的时间内,新一版的GPT-5可能会具备这种视频理解的能力。我们现在比较理想的一种交互方式就是多模态的智能交互。比如,GPT-4可以通过一个摄像头,或者上传的图片的视频信息来和人类进行交互,而且能够给出更加智能化、更加人性化的回复,这也是一个里程碑式的跨越。未来可能GPT在这方面可以达到普通人类的水平,所以很多的人类的工作都会 被取代。3.认定角色的能力。之前在和ChatGPT对话的时候,他对于角色的设定并没有较强的记忆。比如设定他是一个律师,他可能在几轮对话以后 就会忘记该设定。但现在的GPT-4在这方面有了非常大的强化。设定的相关的角色,以及相关的定位和个性,他都能够很清楚地记住,并且可以全程用角色去演绎。 之前我们在和ChatGPT聊天的时候,如果给它设定了一些角色,可能对话了三四轮以后,他就会忘记该设定,或者忘记对于该角色设定需要做的一些回复、设定的人格或者个性信息,以及角色的语气。GPT-4则可以进行一种很有意思的角色扮演。我们可以要求他以文学家、诗人或者是海盗的风格来跟我们进行对话,这种cosplay的沟通方式,其实就是一种非常娱乐化的沟通方式,很可能就会产生一些非常好玩的C端的应用。这种设定角色的能力的体现,也是之前的ChatGPT完全不具备的一种非常强大的能力。这是GPT-4一个非常好的进步。 4.文字的输入能力与记忆能力。GPT-4的文字的输入能力提升到了2.5万字的水平。之前和ChatGPT对话可能只能输入比较短的文本,大概不超过1万字,ChatGPT也可能很快就会忘记聊天的内容,导致丢失上下文的关联。但是CPT-4可以支撑一个非常长的记忆,且能够支持非常长的文本的输入。 之前在与ChatGPT的对话当中,我们往往在很多轮次的对话以后,他就可能会遗忘我们之前问的问题或者我们之前提供的一些正确答案和线索。但是现在的GPT-4对于长上下文的文本记忆能力有非常大的提升。现在,通过几十轮次的问答之后,ChatGPT依然能够记住我们之前给出的一些相关信息。未来如果GPT-4这样的模型投入到客服、业务办理、咨询甚至是销售领域中的时候,依靠这种非常强的记忆能力,在问答交互的聊天过程当中,客户的体验是非常好的。因为往往很多复杂业务的办理都需要很多的流程、很多的繁琐的手续。而现在GTP-4有几十轮 次、甚至是一百轮次的对话记忆能力,以及长达2.5万字的文本记忆能力,这已经能够覆盖绝大部分的业务办理的场景、或者其它一些需要记忆的场景。 5.创意性也有了很大的提升。现在可以生成一些非常有创意性的文本,包括歌词和诗词,甚至可以实现很多的风格变化,或者是一些角色的扮演,或者是让他扮演某个诗人去创作,可以完美地复刻我们之前的那些诗人,以及他们的作诗风格。 6.安全性得到了提升。之前我们在与ChatGPT对话时,很可能会误导他,或者让他产生一些政治不正确或者危险的言论。但GPT-4的安全性 已经得到了一个非常大的提升。这是GPT-4的应用重点去提升的一个点,也是OpenAI总裁重点去提到的一个点。安全性对于GPT-4这样大模型来说,确实是一个非常重要的一个因素,因为GPT-4在考试中已经能够达到相当与美国一本分数的水平,超越了的普通人的平均水平。这样的能力可能会被一些人用于一些不正当的用途,它的识图能力以及多模态的理解能力还可能会被用来验证码的识别,以达到欺骗计算机的目的。所以现在GPT-4在ChatGPT的Pro版本中提供服务的时候,把图片的能力先屏蔽掉了,但它确实是具备这个能力的。在安全性方面目前已经做了非常多的工作。OpenAI聘请了超过50位的这样的人工智能安全的领域的专家来对GPT-4进行了一些安全的测试,来保证它的测试能够通过一个比较好比较安全的水平。目前GPT-4模型对于不安全的信息请求的响应已经降低了82%,也就是说,相比于之前的ChatGPT,它现在对于不安全的信息的过滤能力已经提升了82%。对于一些正确的答案的推理,它比之前提升了30%左右。比如对于一些敏感请求或者医疗建议,或者是自我伤害的一些建议,他都会给予比较正向的一些回复,来保证GPT-4不会对人类进行一些有害或负面的诱导,或者对判断能力不足的未成年群体产生一些负面的诱导。但是这也带来了一些不好的问题,OpenAI对于GPT-4的安全性做了很多的工作,导致GPT-4模 型的开放性与开源性降低。我们如果要使用GPT-4模型去进行自己的数据训练,或者进行二次训练,二次微调,这部分是被他们禁止的,或者说他们只开放了很少一部分的权限,或者说,他们推出的是GPT-4模型 的严重阉割版,来给开发者去进行二次训练或调优。这也是为了提高它的安全性不得不做的一些牺牲,也能够在一定程度上侧面说明GPT-4模型的一个强大之处,使得OpenAI不得不在安全性的考虑方面有了更多的考虑,有了更多安全保障措施,避免GPT-4模型去被大家去滥用。 (二)GPT-4的新能力的未来应用场景 首先,逻辑推理能力可以帮助我们去撰写很多复杂的文本,比如律师的文本。之前的ChatGPT更多的是一些措辞方面的润色,而GPT-4在逻辑推理方面能够做到更多的功能,理解和梳理能力得到提升,可以进行文本的撰写。 第二个方面是多模态的内容理解。现在我们与聊天机器人的所有交互都是基于文本的交互,但未来我们更多可以通过这种手势或者是肢体语言来去表达我们相关的情绪和意思,或者可以通过一些配图或者视频让人工智能助理去理解我们。这在智能家居方面有很大的应用场景 第三个方面是他的角色扮演能力。这种能力可以应用在一些娱乐场景,比如在游戏场景,他们应用就非常好。或者在个人助理的场景,因为每个人想要的个人助理,他的性格可能也是不一样的,回复的语气也是不一样的。这种千人千面的个性化的个人助理,其实未来就是一个非常重要的应用方向。 第四个方面是长文本的记忆。这个是一个非常强大的能力,未来应用的领域有很多。比如可以把最近的股价趋势图,或者股价相关的经文信息、相关的时事信息都输入给ChatGPT,可以让他进行分析并预测。这种功能有可能可以进行二次开发并商业使用。我们人类的大脑处理不了 非常大量的信息,但是GPT-4通过大量的计算资源集群进行计算的,可以短时间内输入大量的多模态的信息,进行处理、推理和预测。根据公开信息,GPT-4的参数量已经达到了万亿级别,已经超过了人类大脑的 神经元数量,但是如果对比人类的神经突出的数量,还是有一定差距,但未来GPT-4有可能会接近人类大脑的神经突出的数量。 最后就是在安全性方面的应用。之前我们对于ChatGPT的安全性上确实是有很多诟病,所以他不能广泛地被用作人类的个人助理,而对于一些未成年人,ChatGPT也可能会有一些负面的误导。而GPT-4对于安全性有了很大的提升,所以对于更多国家和地区的推广、对于各个年龄段的推广都有促进作用,这也有可能导致留给国内一些大公司的时间会更少了,对于国内正在致力于该行业的公司,也是个不利的消息。 (三)GPT-4的能力在全行业中处于的水平 目前对于能力的评测,通常会对比一些常见的任务或者一些常见的指标,进行横向的对比。比如一个非常常用的标准,即一个复杂的大规模的语言的理解能力,MMLU,MassiveMaxLanguageUnderstanding。这个任务是一个超大规模的复杂的跨语言的理解测试。这个测试包括57个科目的很多的多项选择题,包括专业的或学术上的选择题。GPT-4的准确率能够达到86.4%,而GPT-3.5只能达到 70%的水平。GPT-4在这方面的表现已经超过了专门在这方面去做调优的谷歌PaLM模型,该模型仅能达到75.2%的正确率。还有一些其他标准,比如我们叫海拉斯瓦格的一个推理的任务,它这个任务是围绕日常的一些事件进行一些常识性的推理。GPT-4有大约的95.3%的准确率,也超越了之前的模型。 Q&AQ:GPT-4现在目前表现出的处理能力还是基于文字方向,从现在它对文字图像的输入处理,到它最后能够支持图像乃至于视频方面的输出, 还有多久的差距?StableDiffusion是在图像的输出上做得很好。OpenAI想要做到这样子的文字和图片两种模型的整合,使得一个应用里面可以同时进行两种输出,这种难度高吗?A:把这两个东西串起来的难度不会特别高。StableDiffusion本质上可以理解成是一个渲染器,它把文本信息理解以后,通过图片的方式渲染出来,或者通过视频的方式渲染出来。但GPT-4更多的是做了一个理解的模型,去理解信息之间的逻辑性,而StableDiffusion模型更多的是文本到图像的呈现工作,这不是GPT是重点去做的。这两个模型最后是否能够有机的串联、结合起来,通过文本和图像信息的理解,用相关的渲染器去表达出来,去呈现渲染出来,这要看OpenAI未来的专注方向。目前我觉得GPT-4或者未来的GPT-5模型很可能会往视频理解方面去做更多的工作,也就是多模态的内容的理解,把内容理解以后,怎么去输出,怎么去呈现。可能是别的团队来做,而不是专门做GPT模型的团队去做,这可能是我们目前的一个理解。