您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国信通院]:具身智能发展报告(2024年) - 发现报告
当前位置:首页/行业研究/报告详情/

具身智能发展报告(2024年)

AI智能总结
查看更多
具身智能发展报告(2024年)

No.202405 具身智能发展报告 (2024年) 中国信息通信研究院 北京人形机器人创新中心有限公司2024年8月 版权声明 本报告版权属于中国信息通信研究院和北京人形机器人创新中心有限公司,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院和北京人形机器人创新中心有限公司”。违反上述声明者,编者将追究其相关法律责任。 前言 具身智能是人工智能(AI)与其他学科交叉融合发展的新范式,从字面可理解为“具身+智能”,通过给AI赋予“身体”,使其能够与物理世界产生交互,并在交互中主动探索世界、认识世界、改变世界。随着数字世界的AI算法开始展现出逼近甚至超越人类的思维能力,具身智能有望打开AI从数字世界到物理世界的窗口,在复杂的物理世界中进一步延伸和拓展AI边界,实现“知行合一”。 具身智能将在技术涌现式创新和突破下,实现“一脑多形”,即让一个智能系统适配各种形态的物理实体,如智能机器人、智能车辆等;实现“一机多用”,即让一个机器设备可以灵活地执行多种任务,适应多样化的场景需求。未来具身智能将从工业协作生产到柔性制造,从家务助手到医疗护理,从灾难救援到太空探索,深入融入人类社会。但当前其仍面临技术能力不足,数据短缺,以及工程实现复杂等一系列挑战。 本报告从AI视角切入,致力于厘清具身智能的概念内涵、演进历程、技术体系,通过梳理当前具身智能技术发展现状,研判分析具身智能应用潜力与可能影响,提出面临的问题挑战,展望思维智能和行动智能融合的未来发展趋势。由于具身智能发展日新月异,限于编写时间、编写组知识积累水平有限等因素,报告中存在不足之处,敬请大家批评指正。 目录 一、全球具身智能发展态势1 (一)具身智能的概念与内涵2 (二)具身智能发展历程7 (三)全球具身智能提速发展14 二、具身智能技术突破,重塑智能边界15 (一)感知模块—赋予机器感官,实现多模态感知泛化17 (二)决策模块—提升机器脑力,实现人类思维模拟19 (三)行动模块—提升机器自主行动能力,实现精细动作执行21 (四)反馈模块—拓展机器交互通道,实现自主学习演进23 (五)支撑要素—本体、数据和软硬件底座共同构成具身智能发展基础.25 (六)安全与隐私保障—确保具身智能执行安全可信29 三、具身智能在各领域的应用前景29 (一)工业制造领域:打破人机协作瓶颈,实现智能化柔性适配30 (二)自动驾驶领域:适应开放交通环境,实现安全可靠智能驾驶31 (三)物流运输领域:优化仓储物流产线,实现高效货物运转32 (四)家庭服务领域:解放人类双手束缚,实现全场景的智能家务服务.34 (五)医疗康养领域:应对老龄化问题,实现拟人化交互服务35 (六)其他领域:从赋能到变革,推动各行各业创新与转型36 四、具身智能发展所面临的挑战38 (一)技术挑战38 (二)应用挑战41 (三)标准与合规挑战44 五、迈向未来,具身智能迎来无限可能45 (一)技术创新发展,推动具身智能持续进化45 (二)产业跨界整合,开辟更广阔的市场空间46 (三)体系重构加速,引发更深层次社会思考47 图目录 图1国内外专家有关具身智能的观点3 图2具身智能的“三要素”概念内涵示意图6 图3具身智能发展历程13 图4具身智能技术体系16 图5具身智能产业链示意图43 一、全球具身智能发展态势 1950年,图灵在其经典论文《ComputingMachineryandIntelligence》1中探讨“机器是否能思考”这一根本问题,认为人工智能的终极形态是像人一样能与环境交互感知,自主规划、决策、行动和执行的机器人/仿真人(在虚拟环境中)。而有望实现的两条路径,一是聚焦抽象计算(比如下棋)所需的智能,二是为机器配备最好的传感器,使其可以与人类交流,像婴儿一样进行学习。后续,这两条路径逐渐演变成了离身智能(DisembodiedArtificialIntelligence2)和具身智能(EmbodiedArtificialIntelligence,简称“EAI”)。 当前,依靠海量数据,结合算法和计算能力的提升,以ChatGPT为代表的离身智能实现智能涌现。自其推出之后,数字世界的AI技术逐步展现出逼近人类甚至超越人类的思维能力。加利福尼亚大学圣迭戈分校的研究团队在交互式双人图灵测试中发现,人们无法区分GPT-4与人类3。但在物理世界中,智能机器人仍然仅是智力有限的任务工具。在此背景下,人们的关注点转向如何让AI的认知从互联网的数字信息拓展到现实的物理概念,包括感官、空间、行动等信息,并将其更好地应用于物理世界。实际上,大模型对互联网上大量图文信息的处理和学习,本质上是“读万卷书”的过程,这 1https://phil415.pbworks.com/f/TuringComputing.pdf 2https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10020609/pdf/frai-06-1148227.pdf 3https://arxiv.org/pdf/2405.08007 可以增强智能体的感知、知识理解和思维能力,但无法取代“行万里路”所带来的体验。就像人类在真实世界中的亲身体验和劳动,无法仅通过阅读和观看视频来替代。具身智能可以赋予AI身体,并具备与物理世界的交互学习能力,这是不能通过看图、看文这些数字信息所能够弥补、习得的。2023年,Nature子刊刊登了由YoshuaBengio、YannLeCun等科学家联名发表的文章,提出下一代AI的终极挑战是通过具身图灵测试,即复现生物体的感觉运动能力,包括与世界互动、灵活的行为、高效的能源利用等4。具身智能被誉为迈向通用人工智能的重要一步,引发了新一轮的技术浪潮。 (一)具身智能的概念与内涵 1.具身智能:依靠物理实体通过与环境交互来实现智能增长的智能系统 具身智能从字面可理解为“具身化的人工智能”,“具身”是前提,即具有身体且能通过交互、感知、行动等能力来执行任务,具身本体的形态不必限制在外观上的“人形”,同时身体的形态也不能作为判断是否属于“具身智能”的依据。根据使用用途和场景的不同,具身智能可以有多种形态。例如,通用智能机器人,大型的工业设备加上AI系统,自动驾驶等多种具象化形态都属于具身智能。“智能”是核心,GPT-4o、Sora等AI技术的最新进展,实现了对文本、视觉、语音等多模态信息的理解和转换。将这些AI技术 4https://www.nature.com/articles/s41467-023-37180-x 嵌入到物理实体如机器人上,可显著提升对环境的感知、交互和任务执行能力。先前的智能机器人,更侧重于执行特定的任务。而具身智能更强调在环境中交互能力,智能表现在物理实体能以“第一人称”主动进行感知、理解、推理、规划到移动和操作等任务。 来源:公开信息整理 图1国内外专家有关具身智能的观点 具身智能的发展主要来自于两个领域的交叉融合,一方面机器人的通用智能需要借助人工智能,另一方面人工智能走向物理世界需要一个身体,同时涉及到包括机械工程自动化、嵌入系统控制优化、认知科学、神经科学等多个学科的融合。这也导致了当前对具身智能这一概念的界定,不同专家的说法略有差异,一类观点强调具身交互对智能的影响。清华大学教授刘华平等在《基于形态的具 身智能研究:历史回顾与前沿进展》中总结:具身智能在身体与环境相互作用中,通过信息感知与物理操作过程可以连续、动态地产生智能。上海交通大学教授卢策吾曾表示通过智能体与环境的交互能够产生智能行为和适应性5。另一类观点关注具身交互对解决实际问题的作用。斯坦福大学教授李飞飞表示具身的含义在于与环境交互以及在环境中做事的整体需求和功能。中国科学院院士姚期智认为通用人工智能(AGI)的未来发展需要具备具身实体,与真实物理世界交互以完成各种任务。但普遍认可:智能不仅体现在处理信息和解决问题的能力上,还体现在对其周围环境的感知、理解和操作能力上。 当前,针对具身智能各家观点百花齐放,但都明确了“智能”的核心地位。因此,本报告从AI的角度切入,认为具身智能是指通过机器人等物理实体与环境交互,能进行环境感知、信息认知、自主决策和采取行动,并能够从经验反馈中实现智能增长和行动自适应的智能系统。 2.具身智能与人形机器人、智能体等的概念辨析 实际上,人工智能领域的快速发展使得大模型、智能体等技术名词不断涌现,也导致关于具身智能的概念有许多容易混淆的表述。首先,具身智能不等于“大模型+机器人”,准确来说是人工智能+机器人等物理实体。大模型具备思维推理、计划决策、语言和视觉 5https://www.ccf.org.cn/Media_list/gzwyh/jsjsysdwyh/2023-07-22/794317.shtml 理解等能力,这仅能模拟大脑皮层部分功能分区的智力表现。2024年5月,斯坦福大学教授李飞飞在《时代周刊》撰文写道,“大模型不存在主观感觉能力,多少亿参数都不行”。脑、身体和环境的深度耦合是产生高级认知的基础。这需要构建新一代人工智能算法,结合了脑神经、运控控制等复杂理论,推动具身智能实现认知涌现。其次,具身智能不等于人形机器人,从载体看具身智能可以是搭载到任意形态的机器人。人形机器人只是具身智能的一种形态,也被广泛认为是最理想的应用形态。但除此之外,比如能在家庭中行驶并与人简单交互的宠物机器人、比如L4自动驾驶,本质上都同时具备具身和智能两种属性。再者,具身智能不等于智能体,两者各有交叉和侧重。智能体(Agent)是指能自主感知环境并在该环境中采取行动以实现特定目标的实体,更强调自主性和目标导向性。智能体既可以是虚拟世界中的计算机程序(软件智能体),如聊天机器人ChatGPT、虚拟助手苹果Siri等;也可以存在于物理世界的智能实体,如智能机器人。具身智能则强调智能体的具体形态和环境之间的交互作用,通过行动的物理交互能够感知和改变环境,通过行动反馈能不断学习和适应环境。具身智能的主要存在形式是物理世界中的各种物理实体。 来源:中国信息通信研究院 图2具身智能的“三要素”概念内涵示意图 对具身智能可以用“三个要素”来对其概念内涵进行理解。如图2所示,具身智能同时需要具备“本体+环境+智能”三要素,首先强调要有具身本体,通常是机器人等物理实体,可以有多种形态,如人形机器人、四足机器人、无人车、无人机等。本体具备环境感知、运动和操作执行等能力,是连接数字世界和物理世界的载体,同时本体的能力边界会限制智能体的能力发挥。其次强调与环境的交互能力,具身智能不仅能感知环境,还能通过行动来影响环境,并在与环境的交互中不断学习和适应。以“第一人称”视角去自主感知物理世界,用拟人化的思维路径去学习,从而做出人类期待的行为反馈。最后强调一个增量,主要是智能的提升,具身智能利用大模型的知识理解和表达能力,赋能多种形态的物理实体实现智能增长。在数据驱动的算法学习下,不断增强感知、决策以及行动能 力,并让感知与行动更紧密地连接在一起。强调不仅通过算法和计算实现智能,还通过本体与物理世界的交互来展现和发展智能。“展现智能”在于依赖具身本体与环境的交互行为来解决实际问题,例如机器人在通用智能的加持下将本体的行动价值最大化。“发展智能”可理解为在具身本体与环境的交互中实现可持续的智能进化。 (二)具身智能发展历程 具身智能与离身智能相互补充、协作发展共同促进了对智能的理解、模拟与扩展,从具身智能与离身智能两类研究范式在历史上多次交锋的角度出发,整体发展历程如图3所示。 具身智能从字面上可以拆分为“具身”+“智能”,天然具备“机器人”和“人工智能”两种属性,同时链接物理和虚拟两个世界。从人工智能视角看,自1956年AI概念诞生以来,智能的发展主要由符号主义与连接主义主导,两种范式从不同的侧面模拟人类的大脑,在以互联网信息处理为代表的领域取得了极大的成功。与符号主义强调“表示”和连接主义强调“计算”的离身智能不同