您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:deepmind专家分享大模型进展20240812 - 发现报告
当前位置:首页/会议纪要/报告详情/

deepmind专家分享大模型进展20240812

2024-08-12未知机构L***
deepmind专家分享大模型进展20240812

以下是专家观点:□Patrick:当前大语言模型领域的竞争格局有何变化?Gemini模型有没有版本的迭代更新?□专家:在FoundationModel这一领域的竞争,无论是谷歌、 OpenAI或是其他主要的一线二线玩家,基本上现在主要分成四个大的方向在竞争:□第一个方向是希望能够把模型做得足够小,让这些小的模型去服务免费的用户,然后能够逐渐让他们去convert。现在无论是谷歌还是OpenAI,都有大量的免费用户,两个公司都在这方面烧了很多的钱, 据了解每年的runrate都是高于$5bn,然后OpenAI可能比谷歌还要多一些,因为OpenAI的免费用户会多一些,所以最近以及未来大家会不断地看到有更小的模型推出,这些小的模型也能够cover百分之八九十的usecase,让用户感觉不到差异。这是最近也有很多新的 模型相关的技术在逐渐提高,对于谷歌来说就有专门的小组负责研究如何能够用更小的模型满足免费用户的需求。□第二个方向是相对于大模型的方向。从谷歌的角度来说,公司希望能够提高用户的体验□满意度,然后让用户愿意去付费,并且现在付费用户的毛利率也是非常高的,这些用户所支付的费用,能够cover部分在免费用户上的支出,但是还远远不够。所以为了促使更多的用户从免费可以切换 成付费用户,会有很多的策略,比如每天让用户免费试用一段时间的advanced版本来促进用户 的转化,因此第二个方向就是希望能够把大的收费的模型做得更好。现在在垂直领域里面,例如AlOverview,假如是付费用户,默认就会在各个地方让用户体会到付费与不付费的区别。另外, 谷歌和OpenAI也都有自己收费版本的model。这种ToC端的收费模式是能够让大家sustain在这个game里面的非常重要的模式。□第三个方向是realtime这一块。大家 可以看到,GPT-40和Astra基本上是同时发布的,其特点都是主打手机端的realtimeagent,因为Astra很有可能和Pixel9一起发布,可能Pixel9会搭载部分Astra的功能,会在Gemini□的App里面,用video去实时地拍摄一些内容,然后进行一些实时的Q&A的任务,GPT-40也有类似的一些功能。Realtime实际上也是让用 户付费的一种方式,因为realtime一开始可能只会面向付费用户开放使用,让付费用户能够不断地延长付费时间,所以realtime也可以看作是收费模型其中的一块。Realtim e的模型上还是面临着非常多的挑战,包括实时地去了解用户所说的内容,用户拍了很长一段时间的视频需要快速去识别并找到东西,特别是在手机端还是非常具有挑战性的,所以realtimeagent会成为未来竞争的一个方向。□第四个方向是可能会在两三年之后才会落地的AGI的usecase。现在谷歌和OpenAI在这方面的投资都很大,希望能够让AI实现□long-te rmthinking,能够真正把datacenter交给AI去用,让AI去真正运行一些 程序,去处理一些事情,可能会有大家意想不到的效果出现。□Patrick:关于GPT-5的发 布,是否有任何消息?□专家:要看大家的期望是什么。如果大家只是说在MMMU上再高几个点,就可以把它称之为GPT-5的话,其实随时都可以发布一些东西,包括Gemini2.0其实在公司 内部已经使用了一段时间,只是一直没有对外发布。但是如果大家期望的是一个long-term的multi-step,并且是支持回退的agent,agent□能够写运行代码来做一些具体的 事情,类似这种相关的技术,比如像”Devin”一样的agent,可能距离第一个usecase的落地还需要2-3年的时间,但是目前是在朝这个方向发展。□Patrick:所以今年年底 可能GPT-5不会发布,就算发布也只会是比较小的进步?□专家:对的。大家可能会看到它变得更加实时化,contextwindow可能比之前增加一倍,价格可能减少一倍,对用户问的问题 能够提供更好的回答,会有类似于这样的一些进步。按照目前技术的能力包括收集数据的能力,还达不到撰写分析报告并进行验证的能力。□Patrick:目前大模型实现颠覆性创新所面临的主要挑战 是什么?□专家:如果想要让Alagent达到AGI的一些功能,就需要让它实际去做一些事情 。现在谷歌的做法是专门为AI建立了datacenter,虽然这种做法具有一定的危险性,但是这是通向AGI的必经之路,就是让agent可以运行相对比较free的一些程序。在这个过程当中,控制AI去写程序的本身也是一个attention的model,需要收集很多的数据,因 为attentionmodel是遵循datascalinglaw的。□现在的主要问题 是无法收集到足够多的反馈数据,例如,现在正在做一些AGI的数据分析agent,比如希望agent能够帮我写一个股票交易算法,并且能够进行很多回测,写完程序之后帮助完成模型平行化的部 署,这中间需要很多步骤,需要写代码,需要部署代码,并且希望尽量减少人工的干预。在这样的过程中,发现了很多的错误,甚至包括比较愚蠢的错误,例如它会装很多□Pythonpackage ,然后无法解决package不同版本之间的冲突,这就需要很多用户反馈的数据来较它,就像新员工进入公司有老员工带教一样。现在就做AGI的architecture而言,除去安全性的各种 问题,收集这种具有指导性的反馈数据也需要比较长的时间,这种数据无法通过模拟数据生成,而且需要的是上千亿超大规模的数据量的模型,仅收集数据可能最快需要1年半,训练模型还需要半年。现在会鼓励员工尽量用agent来帮助他们做一些平时的任务,但是现在实际上的成功率只有1-2%。 另外,发现错误之后,还需要进行中间指导,像这样的上百bn的模型至少应该需要收集上百万的usecase。□Patrick:最近在多模态方面有哪些进展与创新?□专家:多模态现在在文本 方面没有什么问题,但是个人认为在多模态生成方面的热度有所下降。例如,现在多模态生成的商业化落地会有一些具体的setback。在多模态输出方面,一个很大的商业case是通过生成视频和 图片做广告,和广告团队经过一年多的时间测试下来,发现用户逐渐失去了对AI广告的兴趣,并且开始有意回避AI生成的一些内容,特别是广告,例如利用AI生成图片的商品的转化率会低于自然拍摄的图片。在多模态输入方面则进展比较快,之前主要遇到的问题是,例如像Sora及ViT去做一个Patch,需要的计算资源是非常大的,比如输入一个视频,需要每秒捕捉20帧,并且每一帧里面 可能会有很多的OverlappedPatch,所以整体来说需要消耗整个model非常多的 计算资源,这也是为什么大家在用收费版的GPT时会发现在当你频繁上传图片或者其他一些大的文件时,quota就会用得比较快的原因。□现在为了解决这一问题,大家开始尝试与传统的包括CNN 、ObjectDetection等方法结合,然后用一些更直接的feature生成方法,比 如EfficientNet等,生成一些基于视觉的功能,而不是像以前一样只是做一些点到点的a ttention。所以大家会逐渐看到模型会越来越小,速度会越来越快,因此最近几个月的进展主要是在于如何能够让multi-model的输入更smart地交给模型去处理。□Patrick:如何看待最近OpenAI的人员变动的新闻及其对AI的进展可能会造成什么影响?□专家:个人觉得这可能是一个个人行为,最近也有很多OpenAI和Character.AI的人过来谷歌 。其实OpenAI现在主要的问题并不是和谷歌的竞争,而是大家每年都会在这方面烧很多的钱,但是OpenAI的模型跟包括□Claude、Llama以及国内的模型的差距越来越小,因此如何 能够拉开和其他模型的差距,特别是和Llama3.1的差距,让用户愿意为他付费成为其主要问题 。现在越来越多的公司愿意自己做企业的RAG,比如Cohere□等,然后用Llama3.1最大的model的运营效率现在也挺高的,因为现在包括做PyTorch□的大模型训练,做fullysharding的dataparallelization,以及在开源的VLLM上做 大模型的serving的效果都很好。因此,OpenAI和其他几家模型的差异化变得越来越小, 这还不包括像xAI可能未来会发布的模型,xAI可能会有一些别人根本就没有的数据,因为有些消息可能只有Twitter上才能有。虽然现在有愿意付费的用户,但是免费的用户太多,而且你的模型流量越大,可能亏的钱就越多,这也是为什么Character.AI□去年是非常火的,现在其 实相当于是卖公司卖了,整个团队都来了谷歌,就是用户量大流量大,反而造成钱很快就会被烧光。现在ToC端普遍都有这个问题,包括谷歌,像现在谷歌把AIOverviews的对话功能取消 ,虽然这里面有出于对产品方面的理解,但是也有一个原因是想把模型变小,也就是说谷歌也不想在AIOverviews免费的东西上面烧这么多钱,然后之后很快会推出一个新版本,会为付费用户 提供对话功能,免费用户则不提供,并不会因为Perplexity有对话的功能就一定要与其进行peertopeer的竞争,谷歌流量实际比Perplexity要大很多,流量越大免费用 户则越多,从长远来看,可能就算是谷歌也无法负担起这样大的支出。总结而言,这是ToC的这几家公司都正在面临的一个瓶颈问题。□匿名投资者:业内有传下周Gemini推新版本,具体情况如何?GPT会应对推什么版本?□专家:其实这两家公司都有很多存货。今年□1月份开始,在公司内部做项目就需要用□Gemini2.0的框架去做,具体并不清楚要发布什么东西,但是应该不会发 布一个major□的2.0的更新,更有可能是1.5的模型更新,然后很可能是一个小的模型,因 为这是公司现在努力的方向。无论是谷歌还是OpenAl,目前都存了一些这种渐进式的改进,现在可能主要是看对手什么时候推出,谷歌再什么时候推出。按照现在的竞争格局,包括DeepMind 最近发布了一个新的1.5的改进版,这个改进版也不是最近训练的,是之前训练的,发布之后这个模型一直排在第一名,但是之前的Gemini一直都没有排过第一名,所以发布的新版本更大可能是一个渐进式的改进,类似于GPT-4o对于GPT-4,用户会觉得速度快一点,价格低一点,con textwindow能够更长一点。假如大家是用Gemini2.0的话,会发现完全不一样的一些feeding。Majorupdate可能谷歌会等到GPT发布之后再说。□匿名投资 者:请问专家怎么预期GPT-5的技术性能?是原生多模态的大模型么?□专家:GPT-5主要是 做了一些□advancedplanning#ladvancedreasoning,i n□过Q-star模型,即在生成token的时候会有另外一个模型,它能够不断地指导模型去生成更正确的token,包括做一些token的回退。□因为现在做自回归模型其实是有瓶颈的,比 如如果中间的一个步骤生成错了,没有办法回退,不得不在后续的对话里让它不断纠正。自回归相当于如果犯了一个小错误,之后所有错误都会产生复合效应,所以想要提高模型的规划推理能力,需要一个老师不断地在过程中进行指导。这个老师其实就是一个RL的模型,RL模型的一个非常重要的点就是 要做sequenceleamning(序列学习),序列学习本质上就是用attention 去做。不管是在GPT-5还是Gemini3.0的agent框架里面,都会支持中间回退,多步推理以及□long-termthinking的架构,这个应该是大家更期望看到的GPT-5 或Gemin的功能。当然,大家可能还会期待看到在一些专业领域的进展等,这就涉及到从Gemini2.0开始,包括GPT现在有好多专家模型,不是指MoE,而是每一个领域里面的专家,然后 专家回答的东西会让用户感到非常专业,因为每个模型使用特别的专家模型去做的,是基