详解OpenAIo1模型从OpenAIo1模型看大模型发展趋势20240914_原文 2024年09月15日13:20 发言人00:00 开源那些都公布的,基本上最多用到8缺点的头缺点就是千亿,对,千万亿8万亿。但是我们看到来到3.1,我们已经宣布了我们用了15万亿80其实150万亿的数据集来训练。然后我们现在在做GD4组的时候,我们很多人就是业界很多人说这已经到头了。 详解OpenAIo1模型从OpenAIo1模型看大模型发展趋势20240914_原文2024年09月15日13:20 发言人00:00 开源那些都公布的,基本上最多用到8缺点的头缺点就是千亿,对,千万亿8万亿。但是我们看到来到3.1,我们已经宣布了我们用了15万亿80其实150万亿的数据集来训练。然后我们现在在做GD4组的时候,我们很多人就是业界很多人说这已经到头了。你不可能在网上能再抓到更多高质量的文档。但是我们在做喇叭4的时候,我们发现通过自己去挖掘。因为之前大部分都是用commoncal这种,就是别人整理好的这个网络的网页的来源。我发现自己再去挖掘一些网页,才能挖到很多高质量数据。并且进入后面阶段,其实大家各家大厂都会开始去license购买一些数据的版权,包括书本这些。 发言人01:03 其实从数据上这块,还有我们现在所以我们这块达拉斯这块,现在这个预训练上,我们觉得还有很多突破点可以做。那么后训练上肯定会受到这个欧文AI这个欧文的模型的启发。也是从这个强化学习的reflection,反思的多次来回的训练,来这个角度来切入去加大功夫。然后谷歌的话,因为我最近在面试一些谷歌想要跳槽过来的做做艰难的同志。然后他们是会说他们最近他们之前这个模型也非常强力。 发言人01:43 其实可以说几家这四头部四家基本上是很多时候是在一些领域是打成平手的。但是他们最近遇到了一些数据,包括数据审查上面的问问题。然后他们一些之前训练的结果不得不重做。因为我们可以想象这个预训练,就比如说你有十个缺点token你哪怕有只是100个缺点是不合规的,你也必须得把这个提出来,然后把整个模型全部重复重训练。然后预训练可能比如说一次要持续两个月,那你这前面两个月就白训练了。这是他们听说听说他们最近的一次挫折。但是反正各家大厂肯定还是卯足了劲屹想要占技术 卡。这个早期的资本投入非常大的,现在还没有说到这个回本阶段,但是都知道这个应该还是下一个那个行业的突破点,所以都愿意在这个上面砸钱投资。 发言人02:59 对这是大概第二块第二板块的主要内容。然后可以讲一下对说对欧文发现现在开始转向强化学习,这是否意味着张云诺遇到了一些瓶颈,以及未来模型迭代哪些技术会是核心竞争的焦点。那么张诺像我之前提到的,他可以说这个增速也在放缓,但我们自己发现它还没有到瓶颈。但是很多人在期待着这个AGI的到来,就是通用人工智能相当于就说这个模型有了自己的能够不再是相当于背书这个功能,只是做这个trial在看,而是真的做创作。我们感觉可能要更期待一些这个模型架构上以及根本的训练方法上的突破。 发言人03:53 这个的话相当于不是很难预测说一个具体的时间点上什么时候会到来。我们只能说现在我们看到了蓝瓦寺,我们还没有发现说他有AGI这个现象。然后我们知道前一阵子OOS内部有传出这个叫qstar的东西,包括所以它里面这个做安全对齐的一个都会出手。就是觉得我们这个AI数据聪明到一定程度,要开始担心他它的测智能我们也无法控制了。我们个人感觉这个东西可能最多只是有在一些task上面出现这种端倪。我们不觉得他已经到了这个程度,因为他现在也是一个我现在也是一个商业第一的公司。他如果有这种这么大的突破,他是不会就是按住不动就在自己憋大招的。 发言人04:55 像他这次发ON这个时间点,我们也觉得是有一点受到了在一周refection这篇论文发布稍微倒塌一步的一点被动。所以他也就是急着也没有任何什么发布会,然后他的总体的发布其实就是一篇文章,然后都不是论文,然后加一堆人赶紧一看,就是有点像草台班子临时拍的视频,一段短一些就是一系列,大概八个还是十个短视频,我们官宣了。而且他这个算力紧张到说你哪怕是这个part超级的用户,一次你每周只给你发20个对话的机会。30个20个30个对这什么概念? 发言人05:41 你一天只能跟他发四条消息,我觉得这个就是显示出他其实这个模型并没有,本来就是他的发布节奏应该不是, 比如说这个9月12号就发布,但是本来是可能等的更晚,但是觉得现在市面上已经有这个技术的发了。小公司就在那边先跳出来,他们就不能感觉坐在那里等待了,所以他们也其实就是把这个欧文先发出来,哪怕他现在叫退回版本。帮我看看对未来模型迭代哪些技术?像大语言模型其实跟我如果说往大了看,它其实就是三块技术。一个是预训练,一个是后训练,再然后就是这个落地应用的,包括我们说agent,还有这个工具调用以及这个行业落地这些。 发言人06:40 其实就我们公司现在看起来,我们感觉最大的机会还是其实在最后的落地阶段。因为这个模型就像我之前说他是不是遇到瓶颈,他没有遇到瓶颈。但是他在提升性能,其实性价比已经非常低了。我们要砸进去,反正就是数以亿计的这些投资。但是根本就是说从回报上,它性能提升1%,你你你是回不了这些算力上的投资和和研发上的投资。 发言人07:11 研发可能研发比算力还更贵。但是我们觉得现在从应用层面上,我们看到了很多各种遍地开花的这种应用。包括各个行业,哪怕是包括什么医疗,法律,这些都开始有有开始初步探索。但是我们觉得还没有一个第一,没有一个爆款应用。现在这个最爆款可能也就是chatBT相当于是一个人工智能助手这么一个应用。但是其实它的应用广前景还非常广泛。其实它是几乎可以是并且随着未来模型能力提升,它是可以替代80%的文科从业人员,以及50%的初级的program。这个就是马龙它是完全可以取代的。 发言人08:01 这个我们感觉但是在行业落地上,因为大家会都会有一步步的谨慎,以及试错,以及这个叫learning就学习的模式。就是怎么样让这个大禹模型最好的替代人来为自己服务。所以他其实说我们感觉对未来爆点其实还是在最后落地应用上。但是他这个推进的可能还没有研发来的快,但是研发又非常好奇,所以这个可能是一个发展逻辑上的一个矛盾点。对。 发言人08:33 然后第四个话题我们提到的说的是欧文这个模型对实际应用的落地影响,以及在哪些应用领域会显著受益。像我之前说的就是说虽然它的应用上有很大的前景,但是像欧文这个模型,它因为算力成本非常贵。不仅是他训练成本贵,更多是他这个interest上的非常贵。以前我们就来假设他用一模一样的英伟达H2悍的显卡。而且我们这个未来效率就是像这个大规模这个也非常我们都是用一次把并发的这个,比如说几万个用户一起访问数据,然后我们把它打包到一起,然后一起送给一个叫我们叫一个counter去去去做推理。他因为需要自己的反复的几次,还有自己的内循环,就是自己反思的这个过 程。所以他对于推理的成本是非常高的这也是为什么他就是一周只要你发30这个消息,一天只能发四条消息的原因。 发言人09:42 所以我们觉得它对于真正的应用落地能够产生颠覆性影响,可能还没有来的这么快。他只会在先会用到他的应该是只是一些高端领域。那这就包括了,我们觉得现在单位这个呃呃就是金融,或者说单位这个算力和它的经济效益产出比最高的四个行业。也就是在座各位的这个金融行业,然后科技行业、法律行业和医疗行业。这四个行业是可能会先用上TPTOY这一类模型,能够如注册它的这个性价比能够makesense的行业。 发言人10:27 像其实本身法律是最有可能可以用这个模型来完全替代的。因为我不知道这个法律其实它考验出来一个是背书,对吧?你要知道所有这些案例,还有这些法规,还有就是靠经验,这些都是大于模型。它可以通过同时预训练和后训练能达到的。像医疗的话,因为大家都会有这个ethics,就是说道德上的考量,就是说哪怕他准确率99.999%了,就像自动驾驶一样。但哪怕这个1#的错误率,大家都不愿意它发生,所以这个可能是会最后落地最慢的。 发言人11:09 再然后就是金融和科技的这两个行业,这两个行业都是我们知道这个人工成本也是比较高。再然后他有一定的容错率,但是又不能再但是他融资可能比医疗高,但是又比法律要低。因为金融上比如说你一个数字犯错,有时候可能这个叫做叫叫蝴蝶效应。它最后可能就是比如说一级的损失。写代码也是一样,有些bug不容易看,就是一眼看出来,或者说AAI写的代码放进去,一开始就觉得没问题,但一旦它出现bug。比如说像比如说微软这种整个一天全世界所有的windows全部装机,这种都是比较担心后果。 发言人11:59 但是我们觉得这个总体来说,这四个行业可能是能够受到影响。但是其他本来大家很期待,就是说广告这呃在对于科技公司而言,像这种广告,电商这两大领域,我们觉得它离落地还有非常遥远距离。因为这两个领域都是主打量的对吧?比如社交媒体巨头,像之前这个meta我们这个都是每月活都是数十亿级。你不可能给10亿人都用上这种这么昂贵的LOA模型。这个从推理上来说这个成本就是划不来。而且你也没有这么多算力去去给每个人都去用这个来做什么什么内容推广这些OK最后一个话题,专家李牧条提出大大模型应用过程中有效参数不会超过500个变量。怎么看待他的观点,以及持续迭代大模型对应用端模型的关系。 发言人13:08 五百变量这个数字可能是首先就是说这个还是要通过专用不断的去迭代,我们最后找到一个它真正的极限在哪里。我们现在可以肯定说就是500别人还远远没有到。这个500别人肯定还没有到用到的极限。但是500别人很可能已经是这个投入产出比到达最佳点的位置。就是说白就是说你的模型超过了500点点以后,你的这个回报也是非常低的。 发言人13:43 包括像欧文I这个欧文模型,他们是没有公布参数。但是我们觉得可能从他这个之前的,比如说包括从它这个GTFO这个模型尺寸来说,我们知道它是远远小于500这样的,可能在100到200个人之间。那这个oone会稍微比较大一点。 发言人14:07 因为看从推理速度可以大概推算出来可能是成倍的增长,那么也就是到了四五百倍的这个啊,这也是我们为什么拉马3.1,我们最后把最大杯的模型停留在405个点这么一个数字。反正因为我们在等待搭一个一万张双焊接显卡的大集群,在在佛罗里达数据中心准备投入使用。今年年底钱包在这个之前我们也是不支持训练上比这个比外边更大的模型了。所以说我们觉得说不会说有效参数不超过500变量,但是说超过500变量就是你回不了本了。 发言人14:51 然后对然后还有一个问题说迭代这个底层大模型和应用端模型的关系,这个其实关系还是关联性还是很大。哪怕是我们最大杯的模型可能就止步在这个500别点。但是我们给他预训练数据量,以及我们每次训练这个算力的每次投入的算,你比如说你是train,这个相当于是1万小时的GPU,还是说这个10万小时。这个我们觉得还是可以不断在提高。因为好处有有两点,一个是就是说当你把这个模型的大小固定住,比如说你就固定在最大倍位不超过这个500变量,那么就保证它接下来在接下来推 理,就inference时间它的成本不会太高。因为推理时间是根据你的这个模型尺寸来决定。但是训练时间因为是一次 性的投入,这个时候你可以投入的更多,然后你相当于你的这个模型的知识浓度就会进一步提高。 发言人15:53 但进一步提高还有一个好处就是说就像包括这个欧冠A欧文这个模型,它用到的这个叫reflection以及reinforce的能力。因为你还要用你的这个最大杯或者最强硬的这个模型去给你的小模型去提供这个训练数据,还有一种方法叫situation,其实是一样,说白了就是让更更大堆的大模型做老师去教这个小模型。包括从405B16到70变量,70倍的D6到8变量。所以我们觉得对于大V模型,它这个商业投入都还是值得继续增加的。 发言人16:35 然后两者迭代的话就说你顶层的这