您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:下半年的超级场景一:多模态GPT - 发现报告
当前位置:首页/行业研究/报告详情/

下半年的超级场景一:多模态GPT

信息技术2023-05-03刘高畅国盛证券天***
下半年的超级场景一:多模态GPT

腾讯推出自研机器人灵巧手TRX-Hand和机械臂TRX-Arm,灵活程度堪比人手。4月25日,腾讯Robotics X实验室发布最新机器人研究进展,展示实验室在灵巧操作领域的成果,推出自研机器人灵巧手“TRX-Hand”和机械臂“TRX-Arm”。软硬件一体灵巧手TRX-Hand拥有像人手一样灵活的操作能力,可适应不同场景,灵活规划动作,自主完成“操作”。高性能七自由度拟人机械臂TRX-Arm具有运动灵巧、爆发力强、触控一体以及柔顺安全等特点。RoboticsX实验室计划继续推动TRX-Hand和TRX-Arm的融合,并引入深度学习等前沿算法,提升机器人的灵巧操作能力和解决复杂问题的能力,让其更好的服务现实需求。 GPT-4进入视觉场景,已能实时分析视频信息。2023年3月17日发布的GPT-4支持多模态,能给定由穿插文本和图像的输入,GPT-4生成文本输出。近日已经有开发人员将GPT-4与目标检测网络结合,实时捕获摄像头中的物体进行分析并执行人类指令。演示中开发人员使用一个预训练的Yolo v8视觉模型来实时捕获摄像头中的物体信息,结合联网的GPT-4,可以让GPT执行与摄像头中物体相关的人类指令。比如GPT-4能识别出摄像头中开发人员手里的牙刷,然后还能按要求在网上找到牙刷的购买链接。 VIT+GPT,多模态GPT典型范式已明朗,AI进步助力行业机器人加速落地。 ViT是可行性得到了充分验证的处理视觉等模态信息的典型技术。2020年,谷歌推出Vision Transformer(ViT)模型,不使用CNN,直接将Transformer编码器用于视觉模型。2023年谷歌又推出了220亿参数的ViT-22b,并用于PaLM-E模型中 , 可以用于机器人规划操作 , 完成指令。微软的KOSMOS-1模型结合VIT和LLM理解图像和上下文,Meta的SAM分割图像模型也使用VIT进行图像编码。多模态GPT能极大助力机器人产业的发展,首先可以帮助机器人更好地理解人类指令;还能提升机器人综合处理现实世界的不同模态信号的能力;最后多模态GPT带来泛化能力提升,让机器人的通用性变高,有望实现行业内通用智能。 未来已来:从多行为分析、人机交互到通用机器人。当前多模态的输入输出主要是文本、图像和音频,应用场景包括智能办公和虚拟世界交互。从下半年开始的5年内,随着GPT的发展带来AI泛化能力提升,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活,目前阿里已在实验将通义千问大模型应用到工业机器人。未来5~10年,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。 建议关注: 算法&行业机器人潜力:大华股份、海康威视、千方科技、中科信息、云从科技、亿嘉和、萤石网络、商汤科技、中科创达等。 硬件供应商:三花智控、拓普集团、鸣志电器、绿的谐波等。 相关多模态处理:万兴科技、当虹科技、星环科技等。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。 1、 腾讯推出自研机器人灵巧手TRX-Hand和机械臂TRX-Arm 4月25日,腾讯Robotics X实验室发布最新机器人研究进展,展示实验室在灵巧操作领域的成果,推出自研机器人灵巧手“TRX-Hand”和机械臂“TRX-Arm”。 软硬件一体灵巧手TRX-Hand拥有像人手一样灵活的操作能力,可适应不同场景,灵活规划动作,自主完成“操作”。以花式调酒场景为例,为完成一杯酒的调制,机器人对多种物体连续次操作,过程不仅涉及瓶子、杯子、搅拌棒等多种常见物体,机器人还需要以多种动作操作这些物体,包含抓、放、倒这些常规操作和旋转、摇晃等双手协同动作,以及更高难度的抛接、翻转等动态操作和插孔、穿刺、搅拌等精细操作动作。 图表1:TRX-Hand能力展示 视觉、接近觉、触觉、力觉多传感器融合:腾讯Robotics X实验室对不同传感器进行了建模与标定,采用多传感器信息融合技术,使机器人能在各种操作任务中更全面及时地感知物体信息、自身运动状态以及与环境的物理交互,从而更可靠地完成任务。 软硬结合让机器人像人一样“动手”:机器人是一项综合性的技术,不仅对本体和传感器等硬件有着极高的要求,软件算法也是机器人的核心要件。腾讯Robotics X实验室本次展示的机器人是在六自由度工业机械臂上搭载灵巧机器手TRX-Hand以及自主开发的感知与控制算法后,让机器人能够顺畅地完成一系列操作动作。 图表2:TRX-Hand融合多种传感器新号 高性能七自由度拟人机械臂TRX-Arm具有运动灵巧、爆发力强、触控一体以及柔顺安全等特点。不同于传统的协作型机械臂,TRX-Arm采用了绳索传动与差分驱动相结合的方式,不仅有效降低了传动摩擦和运动惯量,还实现了多电机多关节协同驱动,具有高动态运动的能力,其最大速度7.4m/s,最大加速度44.5m/s²,可负载6kg以上。同时,其前臂集成了768点的触觉阵列,其刷新频率高达1000Hz,以此实现了酒瓶在滚动和平衡过程中的高频实时定位。 图表3:TRX-Arm能力展示 腾讯Robotics X实验室计划继续推动TRX-Hand和TRX-Arm的融合,并引入深度学习等前沿算法,提升机器人的灵巧操作能力和解决复杂问题的能力,让其更好的服务现实需求。 2、GPT-4进入视觉场景,已能实时分析视频信息 2023年3月17日发布的GPT-4支持多模态,给定由穿插文本和图像组成的输入,GPT-4生成文本输出(自然语言、代码等)。 近日已经有开发人员将GPT-4与目标检测网络结合,实时捕获摄像头中的物体进行分析并执行人类指令。演示中开发人员使用一个预训练的Yolo v8视觉模型来实时捕获摄像头中的物体信息,结合联网的GPT-4,可以让GPT执行与摄像头中物体相关的人类指令。比如询问GPT-4开发人员手中是什么物体,GPT-4能识别出健怡可口可乐,然后继续提问可乐的卡路里,GPT-4也能做出回答;GPT-4还能识别出摄像头中的牙刷,然后还能按要求在网上找到牙刷的购买链接;还能询问手里拿着的电影海报中的人物信息,GPT-4识别出是电影海报并搜索了相关网页等。 图表4:向GPT-4提问摄像头中的可乐信息 图表5:向GPT-4提问摄像头中的牙刷信息 3、VIT+GPT,多模态GPT典型范式已明朗,AI进步助力行业机器人加速落地 ViT模型将语言模型的transformer架构用于视觉模型,代替了传统的CNN,统一了CV和NLP的架构。Transformer架构从2017年被提出以来,迅速代替RNN成为了自然语言处理的主流架构,但视觉领域依然以CNN结构为主。2020年10月,谷歌推出Vision Transformer(ViT)模型,证明了不使用CNN,直接将Transformer结构应用于视觉模型也可以很好地执行图像分类任务。 Transformer将句子中的每个词(token)并行输入编码器,ViT直接将图像拆分为多个块,将每个块的位置和包含的图像信息当做是一个词,输入到编码器中,训练好的编码器可以将图像输出为一个包含了图像特征的编码,类似于在语言模型中将一句话输出为一个包含了语言信息的编码,之后通过MLP层将编码器的输出转化为不同分类的概率。 图表6:ViT模型架构 2023年2月,谷歌推出了有220亿参数的ViT-22b模型。ViT证明了Transformer不仅可以用于自然语言处理,还能用于视觉模型。PaLM或GPT-3等大型语言模型(LLM)表明,将transformer扩展到数千亿个参数,模型的能力会产生质变,即涌现能力,受到LLM的启发,谷歌决定加大投入,推出比之前最大的40亿参数的ViT-e模型参数大5.5倍的ViT-22b模型。ViT-22b对Transformer Encoder结构做了优化来提高运算效率,在许多视觉任务上获得了优秀表现。并且将ViT-22b经过模型蒸馏得到的小型模型也能在ImageNet测试集上获得很好效果。ViT-22b模型还成功用于谷歌后续发布的PaLM-e,与语言模型相结合显著提高了机器人的能力。 2023年2月27日,微软发布全新多模态大语言模型KOSMOS-1,能够感知图片、文字等不同模态输入,并学习上下文,根据给出的指令生成回答。其中图像信息使用预训练的ViT模型进行编码,然后输入大语言模型。 图表7:KOSMOS-1可以感知不同模态输入,学习上下文生成回答 2023年3月6日,谷歌推出有5620亿参数的PalM-E模型,将540B PaLM和ViT-22B结合。通过ViT将连续的具体观察结果(例如图像、状态估计或其他传感器模态)以类似于语言的方式注入到语言模型中,可以执行多种具体任务,包括机器人操作规划、视觉问题解答、生成字幕等。并具备能与数据集中不存在的物体交互的泛化能力。 图表8:PaLM-E操控机器人在被干扰的情况下从抽屉取出薯片 图表9:PaLM-E操控机器人将绿色块推到海龟处,机器人之前没见过海龟 2023年4月,Meta发布Segment Anything Model(SAM),该模型可以用于分割图像中的一切对象,即使是训练数据中没有见过的对象,其架构使用ViT对图像编码。 SAM可以使用各种输入提示包括点击,框选和文字,指定要在图像中分割的内容,SAM通过基于ViT实现的图像编码器为图像生成一次性编码,再用一个提示编码器将任何提示实时转换为提示编码。最后将图像编码和提示编码两个信息源组合在一个轻量级解码器中,用于预测分割掩码输出。 图表10:SAM的模型结构,image encoder使用ViT实现 我们认为,不管是文字、图像,还是视频、音频、传感器信号,都可以通过恰当的编码手段,输入到模型中实现多模态方案。ViT应用于各种模态,使用transformer编码器得到包含输入模态特征的编码,可行性已经得到了以上业界众多工作的验证。最近GPT的快速发展,结合ViT,将可以让拥有强大理解和生成能力的大语言模型,进一步能处理更复杂的现实世界多模态输入。 多模态GPT能极大助力机器人产业的发展,首先接入了GPT的机器人将能更好地理解人类指令,提升交互能力;其次伴随多模态GPT的发展,机器人综合处理现实世界的视觉、听觉、触觉等不同模态信号的能力将大幅提升;最后多模态GPT带来的泛化能力提升,还可以让机器人的通用性变高,降低在不同场景下需要训练不同模型的成本,有利于加速各行业部署机器人解决方案。 4、未来已来:从多行为分析、人机交互到通用机器人 当前多模态的输入输出主要是文本、图像和音频,应用场景包括智能办公和虚拟世界交互。微软已率先发布了365Copilot产品助力智能办公,另外多模态在AI绘画、AI音乐创作以及看图写稿等AIGC方向也有广泛应用。多模态技术还能让智能家居通过摄像头和智能音箱的视觉与听觉能力,提升智能家居的交互体验,助力智能家居走向全屋智能。 图表11:微软365Copilot一键生成PPT 图表12:DALL-E2模型根据文字生成图像 从下半年开始的1~5年内,随着GPT的发展带来AI泛化能力提升,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。谷歌的Palm-E模型现在已经能控制机器人完成一些需要泛化能力的任务。未来随着模型通用性的提高,部署成本降低,多模态会赋能众多工业领域,比如煤矿行业智能化提高生产安全和效率。2023年1月19日,工信部等十七部门发布《“机器人+”应用行动实施方案》。方案中提出目标:到2025年,制造业机器人密度较2020年实现翻番,服务机器人、特种机器人行业应用深度和广度显著提升,机器人促进经济社会高质量发展的能力明显增强。 据科创版日报消息,4月27日,在第六届数字中国建设峰会上,阿里巴巴董事会主席兼CEO、阿里云智能集团CEO张勇透露,阿里云工程师正在实验将千问大模型接入工业