您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:人形机器人观点:Figure AI & OpenAI新进展 - 发现报告
当前位置:首页/会议纪要/报告详情/

人形机器人观点:Figure AI & OpenAI新进展

2024-03-18未知机构芥***
人形机器人观点:Figure AI & OpenAI新进展

2024年03月18日10:13 发言人100:01 各位领导好,感谢各位早上参会。今天的话主要就机器人的一些近期变化给大家做一个汇报。其实主要是关于像是上周三的晚上,figAI发布了,这是本次爆红朋友圈的一个视频。它这个人形机器人 的进展和我们以往看到的人形机器人的一些更新的不同之处在于,过去我们看到的这与机器人的更新,它更多的进展是在硬件层面。我们很少看到有厂家在上层技术,比如说类似于像人机交互这一块,去提供一些更新的进展。 发言人100:49 这次这个fig01的展示的这么一个视频,有一些就是怎么样去解读呢?或者说是机器人有什么特别之处,它能做到什么呢?其实就从左咱们左屏幕左边的这个,就是关于官方对于他与OpenAI合作之后,对于机器人带来的一些增量功能,主要就是这四点。 发言人101:14 比如说第一点的话,它是现在这个机器人是能够进行一个识别,视觉上面的一个识别和描述。从这个视频上我们也可以发现,现在的机器人它不光光是能够说是我在桌子上识别出像苹果或者说盘子这类物品 。它其实还正确的描述了这个苹果的颜色跟位置。同时就根据这个实验员的这么一个问答,我们也可以看到,它不光是识别出的这个发生者,说他能够自行的去判断这个发生者所处的这一个位置跟状态。它这个视觉识别功能跟这个辨析能力是非常突出的。 发言人102:05 其次的话第二点就是说他能够根据这个实验员的这么一个询问,去进行后续的一个规划。比如说像实验员其实提供的是一个比较模糊的这么一个定义,就是说他他饿了,但是机器人可以通过这个常识去做出推断,像是把桌面上的这个苹果递给实验员,这他的第二个增量。然后第三个就是官方给出了一个reflectonmemory。其实就我们理解,它可能是针对的是一种描述的是针对机器人短时 的这么一个记忆功能。那么这一这一条的一个特点在于,很多朋友之间交流有提。好像这个人形机器人这一次的视频展现出来的东西让这个人形机器人更像人类。主要是在于就比如说他在回答问题的时候可能会有一些停顿,这个是更贴近于人类的语境的,是说给它增加了一些拟人化的功能。其实我们认为就是官方提出的这个。 发言人103:24 第三就是它有这个短期你能我们认为这才是使它更贴近于人类的一个原因。因为我们可以看到就是在在视频里面展示出的这么一段连续的对话里面,像对话的后期,像实验员他采用了一些介词,比如像是他们那边这类介词去代词。前述对话提到过的比如说苹果或者盘子等物件,以及提到过的这些位置。那么机器人也是能够get到这个呃呃实验员所想要表达的一些物件。这就反映了机器人实际上它是有这么一个短短时的这么一个记忆功能的。这也是使他更贴近人类的东西,这是第三点。 发言人104:16 然后第四点,跟官方还提出,他能跟人欧盟来合作之后,第四点的一个功能就是explainisreasoning。Verbally就是说他能够通过语言去解释其推理过程。这一点给机器人 带来的其实是一个对于他完成任务或者说是。执行操作之后的一个反思功能。比如说它能够通过像是桌面上的一个盘子跟杯子,是否已经收入到收收入到这个收纳柜的是不是是他是否已经达成这么一个状态 ,对他所执行任务的这么一个完成度去做一个反思。整个动作是就就就形成了一个闭环。这是这这是它的第四个功能。 发言人105:20 我们知道我们AI就给机器人带来这四个功能。像是欧盟AI的这个大模型是怎么样去去给这个机器人 赋能的呢?其实我们可以看到这个图右边的这么一个示意图,其实是官方给出的这么一个零一它的一个运动机制的示意图。从这个架构上面我们可以看到一共有三层内容,去描述这个OpenAI怎么样跟 这个零一去做结合。最上面第一层,就是我们的这个视觉语言大模型,也是欧盟I给这个机器人的一个一个一个一个增量。 发言人106:06 然后第二层就是像第二层跟第三层,就第二层的神经网络结构,加上第三层的这个全身运动控制层,其实是fakeAI已经提前搭建好的。这又这这又是为什么双方仅仅合作13天,就能够推出这么一 个进展呢?其实两方应用都是已经体验搭建好的这么一个架构,去做了这么一个结合。发言人106:35 那么怎么理解这个交互和人体交互和运动功能的这么一个结合呢?或者说它这两套搭建好的系统是如何做关联的。我们其实可以采用人体的这么一个结构去做一下类比。比如说像宝,我们可以把这个figureAI搭建好的这些好架构,就下面的这个神经网络层跟全身身体控制这两套系统,我们可以类 比人类的小脑。小脑它其实是用来控制这个肌肉,保持我们人类运动和平衡的。那么在机器人上面的话 ,它其实上就如果要实现这样的功能,它实际上对应到了就是我的一个运动控制的一个算法,还有我的这个感知系统。比如说触觉或者说视觉感知系统等等。 发言人107:39 图从图上看到我们可以注意到这里有些箭头。那么在下面figAI这两层架构首先的话它是从。它 是从上面的话接收到了这个运动指令之后,机器人会你结合这个视觉摄像头,从周边基建,周边普货和收集到的一些的图像信息,会反馈给回到第二层的这个神经网络。就通过模型进行一个运动规划,进而就拆解出一些特定的运动指令项目,各个关节去去开发,然后最终去执行他的所需要的这么一套动作。那么执行之后,其实上上就是还是机器人,还是有一个叫做状态执行估计器的这么一个东西。那么对运动后的整个状态进行这么一个检测和估计,然后再进行反馈,形成这么一个闭环。这是figAI这 么一个架构。 发言人108:52 然后对于这个OpenAI地层的这个大模型我们如果类比人类的话,就可以是把它当成大脑,它是认 知跟意识的一个中心。所以说在机器人里面,它它起到的作用就是一方面是我可以接收这个实验员的指令。然后这个大模型它因为它是能够接收它是能够解析这个文本跟图像信息的。所以说他在接受这个实验员的这个语音指令之后,首先要转化成这个文本,然后跟摄像头坡道的视觉信息一起输入。大模型会基于这个信息进行逻辑推理,以文本的形式输出想要的结果,再以转化成语言的形式对于人类进行输出 ,是这么一个流程。发言人109:54 然后我们讲完了这两套系统是怎么运作的,他们怎么样去做串联的呢?其实我们可以看到右边的第一个向下传导的这么一个箭头。实际上这个OpenAI的这个大模型,它除了能够处理和输出这个人机交 互的这么一个能力之外,它还有一个。一个一个behaviorselection的这么一个过 程。这个过程实际上就是根据大模型,根据这个语言跟图像输出输的的输入推出来的结果。根据这个结果,它在神经网络里面去调用,这个AI已经预先定义好并且训练好的一套动作,对它进行调用,然后就实现人机交互的这么一个过程。这就是这个视频所展示出来的视频的这么一个原理。 发言人110:54 他给我们看到了这个人形机器人能够做到一些就是在在单个工位上面能够做到一些事情。但是需要注意到的是其实人均期限的这么一个终极目标,它是对于他需要这个机器人,对于这个通用场景有也就是说针对不同的这么一个环境,不同的场景都要具备通用性。这实际上是figureAI他目前还是比 较欠缺的。关于后续的话就是我们需要关注的重点,比如说是这个。发言人111:39 对。 发言人111:46 不好意思,刚才讲到了目前的话就是因为这两套系统都是非GAI提前搭建的。那么关于后面还需要比如说像是下面的这个神经网络跟运动功能所代表的一些的动作,都是PGAI已经提前定义跟训练好了 。那么关于后续的话,就我们还需要关注的,或者说CGI还需要提升的。那么第一点,比如说需要还是需要把这个运动能力给进行提升。它在这方面的话相比较特斯拉还是有一定的差距的。比如说他在下半身的话,根据公司之前公布的一个行走的一个视频看的话,下半身实际上是没有用类似于像四杠的这种东西。可能相较于特斯拉的这个人形,可能就没法实现更精细的这么一个动作。 发言人112:46 然后第二点的话,比如说像是这个响应速度,或者说是这个算法的这么一个计算速度跟效率还需要提升 。因为我们所谓的这个响应速度,就是说它从这个大语言视觉大模型形成了指令。那么到在神经元在这个神经网络里面去进行这个运动模式的这么一个调用,然后再把这个运动进行规划和拆解下,掰到关节这么一个过程的这么一个执行效率。 发言人113:22 根据伊菲格这一次公布的视频,它们它的摄像头它是以十赫兹的频率去获取信息。然后这个神经网络能够以200赫兹的频率去输出这个动作。但是随着这个动作的复杂度的提升,肯定它的这个要求是更高的。未来是一个突破的重点。虽然说就基于我们刚才提到的这两点,这个figure在真正意义下面 的这个通用场景的应用,实际上还是处于比较早期的这么一个状态。但是。但是这个demo视频给我们看到的是机器人在限定的这个场景中,通过对特定任务的特定动作这么一个预先定义和训练,他是能够完成这个具体任务的。 发言人114:21 像这个AI董事长日前的访谈其实也提到,它首个应用场景的定位会是在工厂。有可能年底会是在宝马 的南卡工厂去部署,主要的工作还是在仓库中去做一些物流搬运跟分拣的这么一个工作。而这套他他给他的这个工作从本质上看,也是跟我们本次视频所展示的这个动作类似,也是一些普通的抓起、抓取、摆放这么一个功能。加上这是跟OpenAI合作,又又添加了一个人机交互的这么一个能力。而且这 些交这些工作的话他是在单工位上面去完成,他实际上是无需特别强大的这么一个腿部动作的加持的。那么从这次最新视频所展示的成果来看,像是一个AI跟宝马,按照时间节点去推进,去达成所预设目标的概率还是比较高的。这是近期这个figureAI实践的一个解读。 发言人115:35 下半下一部分的话,我们是进入到聊一下这对于这个行业的一个近期的一个观点。整体而言,我认为这个人际基金行业的话,它还是在按部位久就班的去推进它的这么一个商业化的过程。从去年的这么一个把重点放在设计验证,过渡到今年整个产业链要尤其是特斯拉要实现实际运行跟生产过程的实现。在标的上面,我们一方面还是持续的去去关注这个台湾,因为在里程碑节点节临近之时,它这几个的确定性还是比较高的那我们能够看到像是产品定点,产能投放这一类的这么一个边际变化。其次我们是建议在机器人里面去去关注一些业绩比较好的,或者说主业这一块能够持续增长的一些公司。像托TO,台湾里面的这个名字拓扑山花绿地,尤其说像是这个绿地。 发言人116:50 整个减速器行业协会减速器行业,其实今年是处在一个出行的这么一个过程。公司的话是已经在这的客户,包括技术设计和生产效率上面都构建了一些壁垒。包括它的生产效率,实际上还是在不断的这么一个去优化。今年的话产能的话也是提升到了50万件的这么一个能力。 发言人117:16 那么在谐波这一块的话,还是属于地位比较稳固的一家公司。如果参考公司下游就是工业机器人制造业设备的这么一个替换周期,它的上一个高峰是在2021年。那么有可能就如果参考这么一个设备替换 的周期,那么可能在26年,公司会又迎来了一个高峰。然后在今年的话会是一个逐步站稳,出现的这么一个过程,这是绿地谐波的一个情况。然后其他的话,比如说在板块里面寻找一些业绩比较好的公司 ,那么我们可以关注一下像是比如说像德昌股份,像是伟创,像是安培龙,比如说德昌。发言人118:06 主业这一块的话,就是那个小家电,企业在逐步的比较稳步的增长。像是家电这一块的话,去年可能就是27到28亿,今年的话比较稳健,30个点的提升到30到32亿的这么一个预期。然后更大的一 块是在于这个新能源车业务的这么一个体量。去年的话可能就是两个亿的这么一个收入,今年的话可能还是会在实现翻倍。 发言人118:40 然后机器人这一块的话,主要是想跟像是优必选这一类的厂家去合作。公司以做这个关节电机为主。相较于现在厂家用的,像是海外的这个科尔摩根的产品,成本上是能够有非常明显的优势。相较于海外的产品的话,公司评估下来能够降本接近一半的这么一个水平。 发言人119:07 其次的话像是微创,相较于其他的这么一个工控行业的标的,公司的特点就是传统行业占比