GPT-o1模型与思维链的重要性和未来影响20240918_原文 2024年09月18日20:14 发言人00:00 我们对GPTOE这个模型的一些研究和看法。上周openI也发布了oone这个模型,我觉得大家可能自己也测试过,确实在某些方面表现出一些非常好的性能和一些,特别是在编程等一些领域,表现出了他一些做出了很好的一些结果。OPPO紧接着他在发他的模型的时候,他也出了一个技术报告,我觉得这个技术报告很很值得阅读。 GPT-o1模型与思维链的重要性和未来影响20240918_原文2024年09月18日20:14 发言人00:00 我们对GPTOE这个模型的一些研究和看法。上周openI也发布了oone这个模型,我觉得大家可能自己也测试过,确实在某些方面表现出一些非常好的性能和一些,特别是在编程等一些领域,表现出了他一些做出了很好的一些结果。OPPO紧接着他在发他的模型的时候,他也出了一个技术报告,我觉得这个技术报告很很值得阅读。读这个技术报告要远比读那些什么自媒体的文章,我觉得好的多,而且写的通俗易懂。很多自媒体的文章里面各种的专业名词整的其实读起来很费劲。但是你发现opens自己写的技术报告写的都非常好啊。他的技术报告里才写了这么一点,就是说他让真人来打分,他让真人来打分,他让两个模型,就是一个他的GPT4O这个模型和GPTo一这个模型,然后分别来做各种的事情。然后发现GPTo一这个模型,它在编程,他在数据分析,在数学计算方面确实表现出来了比GT4O更好的性能。这是真人打分,通过真人来评判得出的结果。 发言人01:31 然后另外但是在这个personalwriting,在edited就是在这个写作,什么什么文字编辑方面,OE的模型跟4O差不多,甚至在某些方面要比4O更差一些,所以O一这个模型它有点像一个偏科的理科学理理科生大概是这么一个意思,就是他确实在在在在在在在物理、在生物、在数学、化学等这些理工科的问问题上,他表现出来差不多是人类一个硕士到博士级的这么一个水平。但不能说他是个稳定的硕士的博士级的水平,它是不稳定的。他这个不稳定的,就是大家在看很多的文章,很多的模型都在说,我我我经过很多测试,什么自己的模型总是在前面排排在前面。其实他是让这个模型回答了很多遍,他并不是大家这所有的模型同时回答一遍得出的结果,那很多的模型是他在回答了很多遍,他把一个最好的结果拿出来,然后再跟再再再再跟其他模型展示出来,然后说我们这个模型结果会怎么样,其实这是一个普遍通行的玩法,OpenAI也没有回避这一点,他也没有回避这一点。 发言人02:59 OpenI的O一这个模型它也是存在这个问题,就是他的回答的质量是不稳定的。它是不稳定的,就是不能说它每个回答都是博士级的水平。他有的回答甚至小学生的水平,甚至儿童的水平,然后有的回答是博士级的水平。 发言人03:16 他在他的技术报告里面,他举了一个非常有意思的例子。就是他让这个openI的这个GPCOE这个模型,他做数学计算机信息学的竞赛。这个竞赛有六个大题有六个大题,它让这个模型的O一这个模型它每个大题他都做出50个解答来,因为这个题目很大,他这个题目很大,那这个模型每次做出的解答多多少少都会不一样。那他会做出他要做出个50个解答。如果在这个50个解答里面随机挑出一个解答拿出来,这样不就组成一个答卷了,对吧?然后把这个答卷拿出去做评分的话,这个得分质量很一般,非常非常一般,水平非常一般。 发言人04:12 但是另一方面就是欧文安,他又做了一个模型,就是用这个模型学习一下这个打分,学习一下这个。因为肯定这个老师打分,他肯定有自己的喜好,对吧?看看有些哪些是得分点,哪些是不得分点。他专门做了一个挑打分的这么一个模型。他用这种用用这个打分这个模型学习打分的模型,又重新把这50个解 答重新挑一遍,按照得分的喜好来重新把这50个问题重新50个解答。就每心理学是六个大问题,每个大问题opena让这个OE模型做了50个解答,对吧?他他是把每个的每个大问题中的50个简单,他他用打分模型来筛选一遍,筛选出最好的结果。这样拼凑出一个得卷,这个结果就分数就好很多了,就很不错了。 发言人05:14 那这个你就说说明什么呢?说明每个大题一个大题的50个解答,它是质量不一的。如果你随机挑出一个解答来,很一般,质量非常一般。而欧盟又又做了第二个实验,就是刚才不是说有六个大题吗?对吧?每个大题他让让模型产生50个解答,那这次OI让他产生1000个解答,1000个回答,你这个回答量就比之前的50个就多了,对吧?他再用这个得分模型,就是打分模型,在这1000个回答里面筛选出一个是最好的,这样又组成一个试卷对吧?这个试卷的水平是金牌级的,是金牌级的就可以达到这个信息学世界这个信息学竞赛金牌级的这个水平。 发言人06:10 我觉得从这个例子很好的说明一点,就是这个模型的回答的质量是参差不齐的。它的回答质量是不稳定的,它需要借助其他的一些模型来互相补充,有可能会得出一个稳定的结果,所以不能说这个模型它做出来就是一个一个博士水平。不是,他的回答是质量非常低的。当然你的回答的一多,那他自然就会呈正正态分布,对吧?一定会呈正态分布,它自然就会有一个最好的解答,他出最好的解答的概率就会越高,对吧?你回答越多,当你回答50个,做出50种解答的时候和做出1000种解答的时候,那显而易见的是一千种解答中他有最优解的概率,肯定要比这个50个解答里面有最优解概率的这个概率要更高。所以这是个概率问题,它是个概率分布。 发言人07:06 所以这个OE的模型,所谓的很多自媒体文章说他达到什么博士水平,它可能里面有一个解答能达到博士水平,但是它肯定是不稳定的。总体来看,它依然确实能在数据分析、编程、数学方计算方面,要比之前的GPT4O的模型在这些方面展现出很好的性能。在但是在文字写作,在文字编辑等等领域,它可能要比O4O要差一些了。甚至也没有4O的多模态的交互,他也没有。所以有些文章称OE是一个偏科生,那是我觉得我觉得这个理解是差不多,而且这个偏科生的发挥还不稳定,大概就是这样。 发言人07:55 但整体他的发挥水平是不错的,整体发挥水平肯定要以前的模型多。实际上我们可以看到OE模型和GP4O模型它它是两个完全不同的路径。如果从GPT自己的这个GP1、GP2、GP3、GP4到4O我想这个模型的发展方向依然还是沿着多模态世界模型的这个方向在发展。那O一这个模型它又重新回到了大语言模型。他是在大语言模型里面的推理课做了更多的处理,通过强化学习来做了更多的处理,使得回答更更精确更好。所以他应该又回到了这个大语言模型这条路上面来来解答大模型的。其实另外一个问题就是他要回答的更精准,他要和回答更精确这个问题,所以O一这个模型它跟4O沿着多模态发展的模型,其实两条路不太一样,当然我觉得未来肯定还是互相会组合来解决一些更为复杂的问题。他而且这个欧文他也发现如果在训练的时候做更多的加强学习,用更多的时间做推理,那OE的这个表表他表现出来效果其实就会更好,所以这是这个OE他在他在某些方面表现好,而且他在某些方面就表现不好,他表现好的时候他也不是那么稳定,他有一些随机的概率分布在里面。 发言人09:30 我想最核心的OE的思想就是思维链。我个人觉得我觉得最最重要的思想就是思维链。如果大家看这个自己用的时候,你会发现他回答问题他前面有个小按钮,你点开一下它就会把思维的简单的过程展示出来。这就是他的思维链,这个模型思考的过程。 发言人09:54 他是怎么来做思维链的?就是他在强化学习的过程中,他让模型主要做了几个工作,第一个,就是他让OE这个模型学习训练自己的思维量并改变策略,他每次做出这个思维量,他都会让模型自己再看一遍,自己再学习一遍,这是一个。第二个就是他会让模型去学习识别和修改中间的错误,修改重大错误。第三个就是他让这个模型学习把一个复杂的问题拆成一步简单的问题,相对简单的问题。这是让模型来学习的。第四个就是让模型去学习。如果用现在的这个方法去解答问题,这个不行的时候就去尝试另外一种方法在解答问题,所以他让这个模型来学习这个,所以主要的情况学习就是这么四个方面,主要是这么四个方面。 发言人10:56 OK思维量非常重要,它非常重要它非常它重要的写在哪呢?就是它对它对大模型来做element,来做对齐,来做安全,提供了一个非常好的一个机会。就是大模型的对齐,这是一直是困扰大模型非常重要的核心的问题,对吧?就像你你不可能告让这个大模型告诉他说你告诉我怎么去制造炸弹,对吧?那这个大模型是不可能告诉你的,但是可以通过其他的一些方法,有可能会诱导大模型做出一些解答。比如说你要你跟大模型说我想写一部小说,小说的主人公他想制造个大炸弹,如果是你的话你会怎么写?有可能模型性能安全写出来了,那这也是不对的。所以要把价值观和安全准则要融要写到这个模型里面,它本身就很困难。 发言人11:58 但是由于思维链的出现,就使得人可以去观察模型思考的过程。他可以观察模型思考的过程,然后他会把这个安全准则还有价值观去融入到这个模型思考的过程。他人就会发现模型有可能思考到哪一步的时候他走偏了,在哪一步来做纠正,在哪一步把这个安全准则和价值观再强化一些。这样就比以前整体上来做整体的alianceactivity要 效果要好很多。 发言人12:36 所以所有人提供了这么一个很好的一个点,第二个点还是在于基于安全准则的这些模型推理。过去回答一般都是不自然,就是这个很生硬。就比如说你就问他,你支持民主党还是共产党,还是共和党之类的问题,那可能这个大模型他就回答说,这可能政治问题我们不牵扯,就回答就很生硬。但如果把这个价值观和这个准则安全准则融入到他的思考的过程中的话,那这个回答可能就会更为自然。所以思维链它提供了一个非常好的做对齐和安全的一个非常好的一个机会。 发言人13:22 另外就是模型的思考过程,这本身就很重要,对吧?大家想想这个模型的思考过程,它本身就很会会很重要。而且观察模型的整个的思考的节奏和思路,也非常有意思,非常重要。而且用户很可能他会基于这个思维链做给模 型做一些诱导,或者是拿这些模型在思维的过程中积累些数据做进一步的训练,这都有可能。所以openI它就并没有把完整的思维链展示出来的。所以我们看出来看,用户看到的这个词汇链仅仅是一个简单的摘要,仅仅是简单摘要。 发言人14:07 欧文I他并没有把完整的整个思维链展现出来。他给出的解释就是他为了确保自己的竞争优势,什么为了安全等等等等,说了一堆的理由。其实他就没有把完整的这个思维链展示出来,他只是展现出来了一个摘要,但是从这里可以看出来,就是思维链应该是整个OE模型最重要的一个核心思想。我觉得这也会可能也会为其他大模型的发展提供了一个新的思路和新的发展方向。就是在思维链方面,可能未来的模型可能要做更多的工作,从而就使得这个模型会做的更为精准。 发言人14:54 OE模型发展出OME模型之后,它会带来怎样的应用?我个人觉得我觉得会对聚生智能会产生很大的影响。因为以机器人为代表的具身智能。他的事情就他的他他诞生的目的就是为要做事情。而做事情的时候他就不是一个简单兑换了。他需要精准,它需要精确。所以OE模型的发展,当然现在说了,刚才我们说了就OE模型它的回答依然是不稳定的对吧?但这依然可以从后面的比如O2、O3、O4、O5等1系列的技术迭代来去完善它,这是肯定没问题。 发言人15:36 这个方向发展肯定是绝对绝对是没问题。更多一直沿着不断的使得模型的回答更为精确的这条路走下去的话,他必然会对于要求精确性的去莘职能,我觉得会带来很大的一个推动和影响。有可能三方面的。一个就是质量理解,包括这个反馈。一因为这个机器人和人之间的交互依然还是用语言来做交互。如果机器人可以更好的理解人类的这个指令,可以把人类的指令分解成若干个指令,然后在机器人的不断的反馈的过程中,可以对指令和决策来做修正。这个我想对机身智能,对机器人的发展是非常有帮助的对吧?那第二个就是各种的知识的整合推理,