发言人1 00:03发言人1 00:35发言人2 01:10发言人2 02:09发言人2 03:16发言人2 04:07 lastuse也有这up 半年成功的亏一次就要小半年的时间。他直接在这个相当于后续的强化学习当中弯道超车,然后以非常快的迭代速度,推推推出了这个,他自己说而且参数量反而比3要更小了。发言人2 05:10Q3的话是总的作为MOE架构,总的参数要达到2.7确定token。这个什么概念?就相当于是这个DPCV3的四倍的。所以其实当时高三出来以后用的人,虽然在榜单上能力不错,用的人也不多。发言人2 05:27还有他一些问题是包括他输出的这个呃人类喜好对齐还是有一些。这个比起大厂,比如说比起蔡飞机和江南,包括这个SRcode还是有一定差距,所以用的也不多。我们觉得可能也会有类似的问题,但至少他这次在reasoning推理能力上拉开了足够大的差距。他这次官司只用了1.7这个确认token,相当于自己给自己瘦身了40%,但是通过这个更多的稀疏激活策略,然后但是他的推演效率还做到了更高。但他现在收费也比较贵,他他的这个API价格好像是输入每天token是三美金,输出是15美金。这个已经是O3的1倍的价格了。当然他觉得自己现在既然能力超越了O3,所以他在在定价上也可以做上最高的用上最高的收费。发言人2 06:38然后最后我可以简单讲一下他怎么样实现它这个突破的。我们讲到说他一个是在强化学习上增推增加了十倍的算力。还有一点他的突破就是相当于它相对更早有一些技术上突技术上创新,相当于是更早的进行多模态的融合。而且这个多模态不但是以前,比如说大家只说把像GBT4O这样把这个音频和语音,不图像和和音频一起放进音训练当中。从一开始就能够解码这个音频图像。你知道输出的时候,这个GP4O就是可以原生模型直接支持这个是纹身图,而且这个图像质量非常好,但语音模式就比较还是比较不那么智能的。但是这次我们看到这个是它的语音模式,就是他的新语音引擎叫叫E而且可以实时上网。说也就是说他在音频模式上,它也做了更早的模态融合。发言人2 07:44更关键是他应该是在训练中加入了这个呃呃实时搜索或者说人生的工具,调用这么一个训练的方法。相当于说本来大家都预测2025年会是这个agent爆火,或者说这个agent爆发的这一年。但是大家都是只是尤其很多小的star的初创企业,更多是在这个后面调用端,就是推理端。这个时候去整合这个agent或者说工具的调用,包括去搜索写代码跑代码这些功能。但是它是一可能是至少第一个公布的,在训练当中就把这些功能全部原生加进去。他在训练的时候就能够进行多智能体的一种协同。发言人2 08:35相当于而且因为强化学习时候,其实你是可以在理论上是可以做到把这个让几个agent一起去做同一件事情,然后把他们的结果都拿回来一起去打分。然后强化学习的话就去学习哪一个agent执行出来的方案最好。就是说这个的话是会极大的放大它后面包括A的调用能力,最后这些他在这个grossheavy上这些体现出来超高分数,也是受益于他在训练当中就用了这个的agent调用和实时搜索。所以我们觉得他这里最大突破点可能是在训练当中加入这个agent多智能体内生化。而且我们觉得可能很其他家很多大厂也会在这个训练方法上去去跟进。发言人2 09:37相当于说如果说GPT的这个OE模型是第一个把这个叫推理模型带动进来的话,就说在后续的时候做这个嗯让他不断的加入思维链,然后做相当于做自我的不断的把把输出token从本来短的比如说三五 百token变成三五千token,做成思维链的这个推理输出。这是一个模式上的创新。现在这个rock相当于是第一个把这个A调用也放到了预训练中,相当于从从一到N的这样一个一个量变。然后这个量变会引发之后的质变,之前的OE更像是自己一个质变。就是说第一次加入强化学习,然后变成了之后引发了大家不断的去skill up这个强化学习的这么一个亮点。所以现在就说呃大家肯定会各家厂商越来越大的压住这个强化学习的继续的give up。包括引用这种在训练当中就引用A的调用。发言人2 10:48这个总体来说,而且我们觉得会对于算力的需求来说,又是个更大的需求增长。我们也看到正好英伟达昨天也是突破4市值的。所以就是说嗯这一块的话感觉很多东西都还在不断的高速上升期,没有远远没有到这个放缓的阶段。可能说唯一放缓的就是这个预训练的。因为他的这个投资周期非常长,而且之前的两三年可能大家已经在这块skill的把线性增长这一段已经完了。接下来是开始是这种log函数的这种非常缓慢的增长。这边就是以上一个大概的概括。发言人1 11:36好的,感谢专长这边那个架构的非常好,包括说一些亮点和差异点,其实也都提到了。就是从我们的角度讲,可能想请教的内容比较多,我就。包括说可能想探讨的,就是优先先给你这个请教,后面可能再展开,先开门见商。您前面也提到了,本身这一次勾四它确实是有很大进步。同时的话有一个你听到有一个截机,就是对GPT5的截机。我想就今天这个机会请教一下,就是目前GP5的这个模型发布,像你们那边包括海外是怎么样预期的那有可能他是怎么样的一个技术进步的方向,有可能有哪些亮点?这块就您了解情况,能不能做一个分享探讨。发言人3 12:35谈到GPT5的话。发言人2 12:37他们本来的应该是比较大的一个bat,就是比较大的压缩的方向,应该是继续在多模态上做更深度的整合。包括他现在做的比较好的是这个纹身图了。但是比如说纹身视频被完全被股谷歌那的view to给超越了。然后这个音频的话也其实可能还不如这个拉玛四的这个原原声音频的交互的。因为它其实没有办法做这种非常原生的自然的对话,它更多的像是还是一个那种一问一答的这种问答机。所以他本身应该会想在产品体验上,在这两块做深度的开发,以及agent上,他也是相当于落后于这个and的。发言人2 13:32我们本来觉得他想在这个本来的短板上继续增强,然后他的但是他的一大研发的方向就是他会继续做这个培训阶段giveup。那么这一段可能像我前面提到现在有一点就是说IOI比较低的,就是说有点实力不讨好,你可能花了PPT5页。如果根据他之前GPT4.5发布的一些信息来说,他们是这里后台训练了两年不到时间才发布GPT。我们可以相信他也做了快两年的研发。然后他现在核心的这个研发团队就是有2拨人。一拨是做相当于O1O3的这个推理模型的核心人员,以及做这个多模态6G4O这个纹身图的核心人。正好在这个月都被meta给上个月的六月份正好都被埋汰给挖走了。我们觉得其实这些核心虽然蛮卡,开出了天价的这个相当于签字费。发言人2 14:35我们预测是可能就是千万级的这样的千万美金这样子。对但是很多时候一些顶级的研究员,他们挖走他不就就不是光靠砸钱一定能挖走,很多时候要看他们自己正在做的什么东西。就是他们觉得如果觉得自 己手上正在做的东西是有可能改变世界的,他们就说不一定会很快被金钱所动,而是选会选择继续留在这个openI继续做这个把GPT5发布出来等等,然后再走。我们也要觉得他们一些GPT5的研发可能遇到了一些小的瓶颈,或者说这个效果不尽如人意。这也是为什么这些核心的研发人员一挖就能挖走的原因。那您时间线上化,您说对我。发言人1 15:32正准备问时间。对。发言人2 15:37时间线上的话之前l man 30会更自信一点,可能是差不多就是七月份会发布。但是一方面是比如说他可能对于这个模型能力,最后比如说他现在应该已经有一些医疗测试跑出来。但比如说他对于这些指标还不够满意,他可能说我们在后训练阶段再继续尝试giveup,或者不能再继续换换一些这个recipe就是配方去做后训练。他可能会推迟1到2个月,但是我们觉得最晚几个月应该也会发布的。发言人1 16:17之前预期七月,然后现在的话预期最晚可能九月会有一个发布。目前可能希望说通过后天或者说通过别的这个调优,把他的这个表现进一步的去做一个提升优化。我不知道这个理解对不对?发言人2 16:33差不多。发言人1 16:35了解,那我大概这块了解了。然后还有一个就是刚才您强调的,就是。发言人2 16:43这次。发言人1 16:43的这个。发言人2 16:45膏4.发言人1 16:46他的一个这个就是多个AD这种就是把它加到预训练阶段。然后这种这个新的这种创新模式,其实确实我们之前可能也没有看到别家特别去强调这个东西,然后可能确实是一个新的一个思路。然后我不知道他出来以后,我们业界有没有对这个东西进行一些讨论分析。这块他这么一个新的这种方式架构和技术发展路线,您觉得对整个的AI大模型会有怎么样的一个影响,包括说后续怎么去评判他,有可能带来这种商业价值上的这种变化。还有其实刚才您讲了,但是我没有特别听懂,就是他这种它技术上面它是怎么样去实现的,就是对多个IT,然后这样一种协作这种模式是怎么实现的?发言人1 17:46 总结来看就三个问题。第一就是怎么看,你们业界讨论了这种大概新的一种方向怎么看。第二个就是刚才说的这个会不会对整个应用,包括说这个模型的价值产生有价值的一个重构和分配。第三个就是刚才就是提到的他多个工具,然后多个A的协作,整个创新他技术上是怎么实现的?发言人2 18:12好了,您这三个问题我正好可能我觉得从技术人员角度来说,可能我可能反过来回答会更更帮助理解一点。我们先说它怎么实现呢?我们可以回顾一下,比如说我之前说到这个O一的,当时去年9月份GPTOE的出现是个比较划时代的一个范式的更新。他的这个相当于从这个质变引发到了后面两点,就说第一次在后续那里加入强化学习。这个强化学习就是让这个模型不断的去再思考几步,叫我们叫思维链。然后去本来一般他模型输出,你问他一个问题,比如说一加二等于说说复杂,这里面有几个2。这种经常之前能考到大学模型的问题,那么以前他就是直接下一个token就输出,然后就瞎猜一个,比如告诉你有有四个,但其实没有,是只有三个。那么OE做的事情就是他是让他思维一步步思考OK,那么是拼的,STRAW这等。然后这个是所谓的相当于我们管我们可以叫它比如说第一代的这个强化了学习后训练,那现在grap做的事情相当于我们可以叫他第二代的这个强化学习。发言人2 19:31后勤里面第一代的时候,因为它其实就是一个模型的一个结果,去给他做强化的一个纠正。就是相当于告诉他当你思维链更长了以后,就是思考的更多以后,你说完你的这个答案就更好。他们在最后的这个rewardmodel打分的时候,就会经常偏向于思维链更长更详细的答案。那么work它是同时派出几个agent的,包括工具调用。也就是说我们大家可能如果试用过这个类似于GPO3和现在2.5 pro的话,你问他个问题,经常还会上网去搜上五个十个链接。但是这都是一个结果,就是你每次你在这个呃不管是API也好,还是你在它的窗口里面用用这个模型的直接对话,它都是就相当于是一个模型去调用一个agent去它搜索是可以搜索5到10个网页,然后它会返回一个完整的答案,是带有思维链这么一个答案给到用户。发言人2 20:43但是grex这次训练不仅是调加入了这个工具调用和网络搜索的这个过程进去。不仅是让大模型只是做个思维链,去把它想的更久、更远、更多部署的拆分。而且让大于我先去网上搜这个东西的答案,而且他用的是几个A的。同时相当于如果说两个agent叫我们叫做周伯通左右手互补的话,现在是多个agent他没有具体说几个,比如说四个八个都有可能,看他算力就是投入有多少,而且这个是可以去平行skillup的。当然越越往上就是它收益率会越低。但我不知道大家有没有用过最近很火的一个叫curse r的这个一个AI代码的工具,它也是可以平行的去调用多个编程agent。发言人2 21:35然后这个过程训练的时候就把多个agent,每因为每个agent他会去搜到不同的网站,然后去产生不同的思维链,最后写出来结果也会不一样。这时候他会再把这个结果进行了去去整合,相当于互相自评。他生成N个并行的思路,互相自评以后再会诊,然后把这个辩论和selfcheck变成了这个模型的内生的能力。这个的话就是我们刚