您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:智源研究院院长20240617 - 发现报告
当前位置:首页/会议纪要/报告详情/

智源研究院院长20240617

2024-06-17未知机构~***
智源研究院院长20240617

智源研究院院长 01□大模型价格战进行时Q:目前国内的大模型都在经历降价潮,对此怎么看? 王仲远:有利有弊。一方面,某种程度上的降价对于开发者去开发自己的应用场景,然后去接入大模型去做更多的尝试,是有一定的价值;另外一方面,如果降价导致收入低于成本,可能不利于大模型的持续迭代和优化,因为这些过程需要巨大资金投入。我也认为中国的大模型不应该停留在GPT -4,而应寻求建立一个健康的产业生态和找到合适的商业模式,以实现可持续发展。Q:价格战会对产业和开发者带来哪些影响?百模大战会不会很快有洗牌?王仲远:对于开发者而言,价格战显然是有利的。当前,开发者的选择非常多,例如智源的FlagOpen提供了针对大 模型全栈的解决方案,包括训练框架、清洗工具、模型算法以及支持不同芯片的独特算子。开发者可以选择开源社区的工具,也可以利用商业模型的降价来尝试不同公司的模型效果,从而获得更好的资源和支持。 关于百模大战是否会很快引发市场洗牌,我无法直接对这个问题直接给出一个明确的答案,毕竟我们只是一个科研机构。我们希望看到整个产业能够更加健康地发展,避免出现劣币驱逐良币的情况。Q:大模型降价潮下,价格和价值之间如何衡量? 王仲远:我个人认为,现阶段对于应用开发者而言,选大模型时优先考虑的肯定不是性价比,而是模型的实际效果。开发者首要关注的是所选的大模型是否真正具备人工智能的能力,能否为自己的产品赋能,而不是选择一个表现不佳的「人工智障」模型。在这个基础上,我相信价格最终会达到一个合理的水平。 实际上,如果一个大模型被广泛认为特别好用,随着使用规模的扩大,规模效应自然会显现。模型的规模上去了,其价格以及工程师们通过各种工程架构系统优化所带来的成本降低也会随之而来。因此 ,当下理性客观的开发者在选择大模型时,应该不太会将价格作为主要考虑因素。 Q:如今AI基建也进入了拼应用的阶段,您觉得具体的这个落地场景有哪些?您重点关注什么领域? 王仲远:首先,正如我之前提到的,国产大模型的能力已经逼近GPT-4,具备了支撑应用的条件。我个人预测,未来两三年内我们会看到大量应用的产生。应用可以分为B端应用和C端应用。 B端应用目前相对明确,因为许多大模型已经在多个场景中广泛应用,几乎覆盖了所有行业。在2023年之前,可以称之为弱人工智能时代,那时的人工智能只能针对特定场景、特定任务训练特定模型,从而达到特定效果。 然而,2023年之后,人工智能逐步进入通用人工智能时代,其最大的特点是泛化性、通用性和跨领域的特性,这将几乎影响所有行业。 一些行业的影响会更快,比如大模型在生成摘要方面效果非常好,因此对所有与文书相关的工作、文 案处理等效率提升作用显著。 再比如,当前的文生图、文生视频技术,虽然还处于早期阶段,但已经能够产生许多有创意的图片和视频,这些都是提升效率的工具。 在金融保险、医疗教育等行业,人工智能的作用同样显著。只要与这些能力相关,各行各业都会受益 ,并且未来会不断出现好用的工具。大模型作为生产力和效率工具的作用非常明确。 C端应用方面,大家更希望看到爆款应用的出现。回顾移动互联网时代或更早期的技术革命,每次新技术的出现都需要一定的周期,包括技术能力的提升、成本的降低以及硬件的支持。当这些条件具备时,能够解决真实用户需求的C端爆款应用才会出现。 因此,对于C端爆款应用,我们还需保持一定的耐心。即使在其他国家,目前也尚未出现C端的爆款应用。未来一两年内,我们可能会先从B端看到非常好用的工具,然后C端应用会逐步出现。 此外,我还想补充一点,智能体(Agent)很有可能会成为爆款应用的一个方向,大模型可以让 它成为真正意义上的智能助理。如果每个人都能拥有一个足够智能和好用的助理,这种科技带来的平权将催生重大的产业变革。这可能是C端应用的一个重要方向,也是令人兴奋的前景。Q:大模型在手机上处于什么样的阶段? 王仲远:目前AI模型在手机端的应用还处在非常早期的阶段。由于当前手机硬件能力的限制, 手机尚无法运行真正意义上的大模型。那么,它能运行的模型大概是什么规模呢?我们这次发布了一个轻量级的图文多模态大模型,叫Bunny3B、4B、8B。这样的轻量级模型或许有可能在手 机上运行,但其智能化水平、解决问题的能力和推理能力显然比真正意义上的大模型要差得多。对于C端用户来说,他们对模型的全方位能力非常敏感。如果某些指令或期望的效果未能得到满足,他们很可能会抱怨。这也是为什么基于大模型的许多C端应用留存率依然不高,因为在用户留存率不够的情况下,很难产生真正的爆款应用。 结合手机端的应用还处在非常早期阶段。要实现真正的杀手级应用,需要天时地利人和:不仅需要大模型本身能力的提升,还需要轻量化后的模型依然能达到令人惊艳的效果,比如能够实现顶尖大模型90%的能力。当最优秀的轻量级模型能达到这一水平时,手机端和PC端的应用才会相应爆发 。 这包括模型和硬件的提升,手机厂商也需要愿意将能够运行大模型的芯片内置到手机中。此外,端侧和云端如何协同、隐私问题如何解决,以及如何满足用户的最大需求等问题都需要得到完美解决。只有当这些条件都具备时,真正的爆发点才会到来。所以,目前我们仍处在非常早期的阶段。 Q:从22年底到现在我们也说过这个卷参数,卷应用,从圈内人的这个视角来看大模型现在进入到了一个什么样的阶段? 王仲远:我们不能够高估一次技术革命的速度,但也不能低估一次技术革命它的深度和广度。历史上每次工业革命的持续时间都不是一两年,而是数十年,而且会对生活的各个方面产生持续而深远的影 响。 之前的人工智能其实仍然是「弱人工智能」,一些最本质、最深层的问题,比如对文字的理解、推理问题一直没有被解决,所以在可能大概在三四年前,我觉得可能人工智能第三次浪潮有可能会陷入低谷。 但当前基于大模型的人工智能技术,尤其是可能的通用人工智能的发展,有可能成为真正意义上的第四次工业革命。 几年前,我可能会认为实现通用人工智能(AGI)可能还需要四五十年的时间,但现在我觉得可能只需四五年。 放到整个历史的长河来看,所有的这一切都非常的正常,而且我们的速度还挺快的。无论 是模型迭代的速度,还是未来可能出现的B端和C端杀手级应用,我坚信它们一定会到来。 只是可能绝大部分的用户,可能要等到这些技术真正爆发并广泛应用后才会意识到其影响,预计这种进展可能会在GPT-4及其后续版本中体现出来。 02□具身智能和机器人Q:大模型怎么样赋能机器人? 王仲远:智能体到底存在数字世界还是存在物理世界?这就非常有意思了。 智能体通常最初存在于数字世界,比如在手机或电脑上的智能助理,它们通过软件和算法执行任务和交互。随着技术的发展,这些智能体可能会进一步发展成为具有物理实体的机器人,那么这就到了具身智能大模型。 当然因为硬件的发展速度现在比不上大模型的迭代速度,几乎是每个月都可以看到至少5个、1 0个全球有影响力的大模型发布,但硬件还远没有到这种迭代的周期和速度,硬件通常的迭代周期和速度还是以年来计算的,这就意味着一方面大家可能现在会看到具身智能人形机器人在过去这一年突然间变得非常火热,但也请大家其实要保持客观理性的来看待具身智能大模型,包括人形机器人的技术发展周期,要能够接受它在未来几年内可能进入到低谷,直到它跨越真正的周期,迎来真正的爆发。 但是我坚信智能体会从数字世界进入到物理世界,具身智能也会跟世界模型相互促进,并最终实现AGI。 Q:智源本次发布的智能超声机器人和生物计算法模型,都是聚焦于医疗领域,为什么关注这个?王仲远:这个项目是跟清华大学和301医院一起联合研发的,应该是全球首创的智能心脏超声 机器人。 它是从心脏超声做起,但是它并不局限于此,我们正在把它的能力拓展到人身体的其他部位的超声,不过智能心脏超声机器人,实际上更属于具身智能的范畴。 然后OpenComplex生物计算模型,属于这个AIforscience的范畴 ,那么刚才提到了我们认为大模型最终会进入到真实的世界,而不会只存在于数字世界里面,那么宏 观的世界就是机器人,微观的世界就是生命分子,这是我们布局这两块研究的一个很重要的原因。心脏智能超声机器人属于具身智能在医疗领域的应用。OpenComplex其实可以用在提升药 物研发的效率,因为药物研发上有一个双十定律,就是一款新药从立项研发到真正能够上市,它可能要耗费10年的时间,超过10亿美金。 所以AI加药物研发或者AI制药是过去这些年确实是非常热的一个话题。那么我们将生成 式人工智能技术或者生物计算大模型应用在AI药物研发,除了能够做化合物的筛选和预测这种小分子的药,它甚至能够给制药带来新的可能性,就把大分子蛋白质RNA这种制药的可能性都添加进去,变成一种新的可能的制药的一个方式,这是一个从0到1的可能性的突破。至于 为什么关注医疗领域,从研究的角度来讲,我们其实布局的是具身智能大模型和生物计算大模型,而且我们的这些模型在医疗领域能发挥比较好的作用,尤其医疗是关系到每一个人的,那么对于像智源这样的科研机构,我们肯定还是希望能够对国计民生,对于整个全社会能够做出一些底层的贡献。Q:那接下来智源还会在具身智能上关注哪些领域? 王仲远:具身智能未来仍然是非常重要的一个方向,会是我们重兵投入或者集中资源的投入的方向。刚才讲了具身智能距离真实的应用或者说对产业化还是要有比较长的时间,大家对于具身智能,对于人形机器人还是要保持理性客观的看待,它里面依然有非常多的需要亟待突破的问题,包括缺乏类似于ImageNet的大规模数据集,缺乏像GP3.5这样的「ChatGPT时刻」 ,也缺乏杀手级的场景。 我们接下还是会依托智源在大模型,尤其是多模态大模型的技术优势,去做技术突破;同时我们会联合像清华、北大、中科院这样的高校,也会联合包括像银河通用以及我们自己孵化的领视智远这样的企业,也非常欢迎更多的企业跟我们一起,搭建一个具身智能的创新平台,联合包括上下游的供应链的企业,通过具身智能创新平台来解决最重要的数据模型和场景这几个面的重大突破,推动具身智能技术的发展。这是我们下半年和明年的一个重要工作重点。 03□终极路线:自回归 Q:就多模态而言,autoregression对于DiT是否具有颠覆性? 王仲远:首先在仅仅从技术上判断,我们认为将来DiT不是终极的技术路线。当然DiT毫无疑问能够达到一个可用的产品级别。 然而,如果我们的目标是追求人工通用智能(AGI),特别是通过使用多模态大模型实现AGI,我们认为自回归模型(autoregressive)在将不同模态,尤其是语言大模型进行整合 方面具有重要意义。我们甚至认为像OpenAI的ChatGPT和Sora等产品线在未来有可能进一步融合。 Q:智源大致从什么时候开始走自回归路线的?是否中间也是走过像DiT这样的路线?王仲远:目前我们在内部没有走过DiT的路线,但关注过DiT的论文。 我们现在正在训练中的模型叫Emu3,其目标是实现原生多模态世界模型。我们相信,当这个 模型最终发布时,它的效果和影响力会非常重要。然而,这条技术路线非常难。我们选择这条路线的原因是智源不追随企业界已经复现和相对成熟的路线,而是致力于探索多模态技术方向的终极路线。智源选择了一条我们认为在多模态方向上的终极技术路线,这条路线非常困难。即使是Googl e的Gemini也未完全实现这一目标。Gemini实现了图片、文字、图像、视频和声 音的输入,但输出的只是图像和文字。GPT-4集成了音频,但还没有完全实现视频的生成和理解。 因此,这项技术本身具有很高的难度,但这种难度恰恰适合智源研究院来挑战,因为我们的使命是实现真正的技术突破和原始创新。同时我们也会尊重科学规律,并接受失败的可能性。并不是创新就一定会成功,但即使失败也是非常有意义的创新。 Q:autoregressive路线如果要成功的话,对于底层算力的要求很高。 王仲远:我们现在依然在做的是技术突破