AI智能总结
走进“机器外脑”时代 人工智能正在迅速发展,大模型技术正成为赋能各行各业的关键。 CONTENTS目录 序言 序言1走进“机器外脑”时代序言2“人物-行为-场景”一体化的AI新范式序言3共创、共建、共享智能美好未来020508 10 28 迈向十万卡集群量变,速度和效率双提升 大模型与游戏共生,打造Agent最佳训练场 趋势2推理分析 LLM带来推理能力跃迁,开启“智力即服务” 端侧模型优化带来应用入口变革 AIGC应用爆发,降低专业创作门槛 人型机器人与大模型共同进化,为外脑提供“躯体” LLM赋予机器情感价值,打开人机陪伴市场 开源生态实现降本普惠,推进外脑共享和迭代 趋势10人机对齐 人机对齐是大模型产品的重要竞争力,也关乎通用人工智能的未来 大模型提升工业新质生产力 创新者预见 编委会 司晓 | 腾讯副总裁 腾讯研究院院长马利庄 | 上海交通大学特聘教授 人工智能研究院副院长吴运声 | 腾讯云副总裁 腾讯云智能负责人 优图实验室负责人张立军 | 腾讯公司副总裁、腾讯华东总部总经理吴永坚 | 腾讯云副总裁 腾讯云智能产研负责人 腾讯企点研发负责人好好 | 腾讯云战略研究院院长顾问 联合出品腾讯研究院上海交通大学腾讯优图实验室腾讯云智能腾讯青腾 序言 走进“机器外脑”时代 序言1 司晓 腾讯副总裁 腾讯研究院院长 继ChatGPT开启大语言模型引领的新一轮人工智能革命以来,我们持续见证了人工智能领域技术的加速迭代,在过去的一年里众多公司如Google、Midjourney、Adobe以及Inflection等,都推出了创新的模型和产品,标志着大模型技术的成熟和大规模应用的开始。今年2月,Sora的出现再次震撼了技术界,预示着我们可能很快就会见证更多令人兴奋的技术突破。过去半年,我们以日为单位更新“AI每日动态”,这可以充分反映出来,AI技术的发展日新月异,以日来统计的话也是毫不过分的。 PREFACE在海量GPU和新一代大模型的加持下,人工智能在三个方向上有了实质性的飞跃。第一是推理能力。大语言模型为人工智能带来了所未有的推理能力,极大地扩展了机器的认知边界。这种推理能力的跃迁得益于LLM在理解和生成自然语言方面的巨大进步。它们能够解析复杂的文本,提取关键信息,进行逻辑推理,并生成连贯、有见地的回应。这使得LLM能够处理各种知识密集型任务,如法律分析、市场研究、科学发现等,为个人和企业提供了强大的智能支持。以往人类智力难以企及的科学探索高地,都可以在AI的帮助下实现。例如,英伟达的“地球 2 号”项目,旨在创建地球的数字孪生体。模拟整个地球的运行,以预测其未来变化。通过这样的模拟,可以更好地预防灾难,更深入地理解气候变化的影响,从而更好地适应这些变化。通过这样的模拟,可以更好地预防灾难,更深入地理解气候变化的影响,从而让我们能够更好地适应这些变化。随着更高级的推理智能被开发出来,各行各业都将有机会拥有“机器之心”。AI 将引领新的服务模式,即“智力即服务”(IQaaS),该模式的一个重要特征将是机器的推理能力以在云端的方式、通过大模型提供给用户,“AI数字员工”将进一步成为现实。大模型使机器不再仅仅是执行简单任务的工具,而是成为了人类的“智力外脑”。 第二个方面是创意的生成。AI技术,尤其是AIGC,正迅速成为创意产业的一股颠覆性力量,为创意工作者提供了前所未有的生产力提升。今年2月,Sora的问世不仅是技术界的一次震撼,更是对未来创新潜力的一次大胆展示。AIGC技术通过文生文、文生图、文生视频等多种形式,使得创作、设计、分析等任务变得更加高效和易于实现。Sora和SUNO等现象级产品的出现,标志着AI生成内容的质量和多样性达到了新的高度。它们不仅让普通人能够创作出接近专业水准的音乐和视频作品,而且正在快速改变媒体、影视和音乐行业的生态。这些技术的普及,降低了专业技能训练的门槛,使得创意表达更加通用化。现在,只要有创意想法,人们就可以利用AI这个强大的“创意外脑”,将灵感转化为现实。AI的这种能力,不仅为专业创意工作者提供了强大的辅助工具,也为普通爱好者打开了创作大门,使他们能够轻松实现自己的创意愿景。随着AI技术的不断进步,我们可以预见,创意产业将迎来一个更加多元、开放和创新的新时代。 PRE-FACE1 另一个方向属于广义的情感陪伴。Dan模式的全网爆火,不仅展示了AI在情绪理解与表达上的巨大进步,更凸显了其与人类情感交流的无缝对接。GPT4o等高级AI系统的自然交互体验,让人与机器的界限变得模糊,仿佛科幻电影《Her》中的情感故事正在逐步成为现实。 AI技术在满足人类情感需求方面展现出巨大潜力,扮演起了人们的“情感外脑”。AI聊天机器人提供的心理咨询服务,以其24/7的不间断陪伴,为需要帮助的人们提供了及时的情绪支持和专业建议。在儿童领域,智能玩具不仅陪伴孩子们成长,更通过情感交互,培养孩子们的情感认知和社交技能。随着情感智能技术的不断成熟,数字生命的议题也日渐升温。一些创新尝试正在探索如何利用数字技术复刻已故亲人,为生者提供缅怀与思念的渠道。尽管这一领域还面临着诸多法律和伦理挑战,但其在情感陪伴方面的应用前景无疑为AI赋予了新的温度和深度。AI不再仅仅是冷冰冰的生产力工具,它正在成为人类情感世界中的一个温暖伙伴。随着技术的不断发展和应用的不断拓展,我们有理由相信,AI将在人类的情感生活中扮演越来越重要的角色,为人们带来更多的陪伴与慰藉。 在本报告中,腾讯研究院基于科技行业发展和腾讯自身在AI领域的深耕,提出了10个关键性的趋势,试图理解全世界范围内正在发生的AI巨变。与往年一样,我们从技术、应用、社会三个方面来预测AI给经济社会带来的影响。我们正在进入一个“机器外脑”时代。加速技术为大模型行业的发展提供了算力的保障。随着大模型与人机协作的深入,个体创作的门槛进一步降低,越来越多的个体借助大模型外脑成为“斜杠青年”、“超级生产者”,甚至开启自己的“一人企业”。端侧模型的优化将大幅提升提升移动设备的体验,开启全新的人机交互方式。在工业领域,多模态通用感知技术正在提升生产力,而游戏与大模型的共生关系为Agent训练提供了新的舞台。开源模型的成熟,为技术共享与创新提供了强大的生态支持。最后,人机对齐成为确保大模型安全与治理的核心议题,指引着我们走向一个更加智能、高效和安全的未来。 PRE-FACE1 这十大趋势共同勾勒出一个由大模型驱动的新未来。在这个未知和无限可能的时代,我们正在目睹AI如何将创意转化为现实,如何让个性化服务触手可及,以及如何为传统行业注入新的活力。AI让智力资源平权化,意味着无论背景或资源如何,每个人都有机会借助AI外脑实现自己的创意与梦想。这一变革不仅降低了创新的门槛,也为社会各阶层带来了前所未有的机遇。只要你拥有创新的想法并善于利用AI这一强大的外脑,即使在资源有限的情况下,也有可能以低成本创造出令人瞩目的成就。让我们一起走进这个“机器外脑”时代,见证人类能力的再次飞跃。 “人物-行为-场景”一体化的AI新范式 序言2 马利庄 上海交通大学特聘教授 人工智能研究院副院长 人物-行为-场景一体化视觉表达与理解是未来人工智能的重要研究方向。随着生成式人工智能以及通用人工智能大模型技术的发展,赋予了智能体感知理解、任务思考、持续学习的一系列能力,并通过直接的物理交互满足人类的各种需求。因而,在未来智能体可以承担更多的体力劳动和重复性任务,而人类则可以更加专注于创造性和思维类工作。其中,人物-行为-场景一体化视觉表达与理解是具身智能、智能生成等人工智能的核心基础,是链接物理世界的关键,一系列顶尖高校以及公司人员都已经下场研究这一新的AI范式。 PREFACE斯坦福大学李飞飞教授创建的公司就利用类似人类的视觉数据处理方式,使人工智能能够进行高级推理。她曾在温哥华TED演讲中表示,其研究涉及一种可以合理地推断出图像和文字在三维环境中样子的算法,并根据这些预测采取行动,这种算法概念叫做“空间智能”。为了解释这一概念,她展示了一张猫伸出爪子将玻璃杯推向桌子边缘的图片。她表示,在一瞬间,人类大脑可以评估这个玻璃杯的几何形状,三维空间中的位置,它与桌子、猫和所有其他东西的关系,然后预测会发生什么,并采取行动加以阻止。她说:“大自然创造了一个以空间智能为动力的观察和行动的良性循环。”她还补充说,她所在的斯坦福大学实验室正在尝试教计算机“如何在三维世界中行动”,例如,使用大型语言模型让一个机械臂根据口头指令执行开门、做三明治等任务。 英伟达CEO黄仁勋此前在多个场合强调了一体化视觉表达的重要性,并预测人形机器人将成为未来主流产品。英伟达近期发布人形机器人通用基础模型Project GR00T,希望能让机器人拥有更聪明的“大脑”。由Project GR00T驱动的机器人能够理解自然语言,并通过观察人类行为来模仿人类动作。 2024年5月,以“大模型具身智能”为主题的松山湖科学会议上,近40位院士专家围绕主题分享最新技术趋势和突破性进展。波士顿咨询公司(BCG)预测,到2030年,智能机器人系统可能给全球经济带来约4万—6万亿美元的年增长价值。 当前对人物理解的研究依旧是机器视觉的核心,但需要从单纯的人脸识别、动作识别等人物视觉技术逐渐转换为与场景交互的一体化表达范式。 PRE-FACE2 例如,高速动态场景中自动驾驶系统无法理解周围环境中人和物的多变行为意图,容易引发严重的交通安全事故;服务机器人无法预测儿童的意图,也成为家庭的安全隐患。其核心问题是人物行为具有多样性和歧义性,同样的行为在不同的场景下具有不同的含义,行为意图的歧义性必须通过时序序列分析才能进一步消除。因此,必须研究时序数据进行人物-行为-场景一体化视觉表达,而这就需要对多模态的数据进行联合分析。 图灵奖得主Hinton教授在5月访谈中就表示多模态学习可以使模型更好地理解空间事物,因为仅从语言角度来看很难理解这些空间事物。当让模型成为多模态时,如果让它既能做视觉,又能伸手抓东西,并能拿起物体并翻转它们等等,多模态模型就会更好地理解物体。 随着diffusion、视频生成大模型的不断发展,真实物理世界的规则先验将成为未来视觉、人工智能研究重点。相较于ChatGPT、图文大模型等生成式人工智能在低维空间探索世界,Sora等视频生成式人工智能开始初步在三维空间模仿真实世界,并以人更容易接受的视频形式加以展示,这样高精度仿真世界投影的出现,也展示出了算力以及算法的进步。Sora生成的视频令人惊讶更多在于它大颗粒度上符合受众对真实物理世界的观察与体悟,让人感觉如“亲眼所见”。其背后是对相关物理规律,如近大远小、自由落体等进行深度挖掘、数字化后的成果。然而,众多权威学者和业内专家发声强调,Sora在二维视觉信息的传播与时空维度的表现力上虽然独树一帜,但并未达到对真实世界的全貌进行全面刻画和模拟的高度,尚未形成严格意义上的世界模型。但瑕不掩瑜,能够生成看起来像是在三维环境中自然移动和互动的视频,已经可以看作是人工智能“虚拟创世”趋势的关键节点。 在AIGC发展的时间线上,总体是从单模态到多模态,从小模型到大模型这样的越来越复杂化和智能化的过程。AIGC模型的基本逻辑是从多模态的数据集,通过训练生成的大模型,服务于相应的各类应用任务。数据集包含文本、图像、语音、视频、结构化数据、3D信号等等。大模型通过训练来进行生成式的选择,然后不断的加以扩展。这个生成和扩展是需要大规模数据或知识的积累,就像一个人,行万里路以后具备了丰富经验,脑子里有很多经验与知识。但最后还有一步,还是要有一些专家或公认的权威人士对它做强化训练,通过强化学习等生成合理可用的AI模型。最后一步非常重要,如果纯是AI生成的内容,逻辑上可能会混乱,通过强化学习,提高它的精准度,并加以约束使之符合社会伦理、政策法规等。适应的任务范围包括知识检索、文本生成、音频制作、视频制作、科学研究等等,内容是非常