您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:智驾底层技术世界模型和认知智能自动驾驶的下一站20240907 - 发现报告
当前位置:首页/会议纪要/报告详情/

智驾底层技术世界模型和认知智能自动驾驶的下一站20240907

2024-09-07未知机构阿***
智驾底层技术世界模型和认知智能自动驾驶的下一站20240907

智驾底层技术:世界模型和认知智 能,自动驾驶的下一站20240907_原文 2024年09月08日21:38 发言人00:00 L4和L5的这样的一个方向。那么知道其实如果说未来整个自动驾驶要真正迈向这个L4和L5的这样的一个方向的话。那我们可以看到整个端到端的一个大模型,未来的一个发展,好像是逐步会和这个单元模型LT的这种单元模型进行一个很好的一个结合,既可以实现我们说这个条件反射的,快速反应的这样的一个快系统的这自动驾驶的这样的一个功能,也能够具备深度思考的这样一个系统的这样一个API的这样一个功能。 智驾底层技术:世界模型和认知智 能,自动驾驶的下一站20240907_原文 2024年09月08日21:38 发言人00:00 L4和L5的这样的一个方向。那么知道其实如果说未来整个自动驾驶要真正迈向这个L4和L5的这样的一个方向的话。那我们可以看到整个端到端的一个大模型,未来的一个发展,好像是逐步会和这个单元模型LT的这种单元模型进行一个很好的一个结合,既可以实现我们说这个条件反射的,快速反应的这样的一个快系统的这自动驾驶的这样的一个功能,也能够具备深度思考的这样一个系统的这样一个API的这样一个功能。这样的话才会真正的有机会迈向真正的L4甚至L五级别的自动驾驶,那在这样的一个发展的一个方向上面,其实我们也能够看到,其实整个大模型跟这个大语言模型NRP的一个结合,以及形成的这样API的这样的一个认知的这样一个能力,和整个这个世界模新的一个发展,对整个自动驾驶的一个算法的一个影响也非常的大。那今天我们核心的一个汇报,其实就聚焦在我们说这个世界模型和认知自然这一块,我们认为这也是未来真正迈向L4L5级别自动驾驶的必然的一个方向。接下来就由我的同事徐阳,跟大家就整个这个世界模型和认知智能做一个深度的一个分享。这个续航也是我们团队对整个宗教技术研究最为深入的一个故事,也是对整个技术上有非常多的这样的一个深入的一个研究。 发言人01:43 所以如果大家对于整个技术比较感兴趣,也欢迎跟夕阳和我们团队联系做进一步的探讨和交流。好,接下来我们就把时间交给徐瑶。好的,感谢任总。各位领导早上好。今天我给大家汇报一下我们底层技术圈的这个第三第三部分,主要就是会介绍一下世界模型和认知智能对于这个自动驾驶的一个赋能。前两天其实我们主要还是从这种AI的底层的算法,以及自动驾驶当前大家所采用的一个技术,来给大家对整个技术行业做了一个拆解。今天其实我们还是主要希望能对未来及时,也就是下一步我们真的要实现自动驾驶,需要做到哪些技术方面的一些变革,来做一些简单的一个介绍,整个的这个报告可能会分为几个部分。 发言人02:36 第一个部分会整体性的介绍一下,以这个AI的维度去介绍一下,目前大大家去实现这个自动驾驶需要做到哪些内容。第二个部分,我们可能会着重去介绍一下,认知智能到底是什么,为什么大家现在翻转回头来又又要去思考,人类怎么样去思考,人类怎么样去行为,这些对于增驾驶有哪些帮助。第三个就是我们会从翻译算法和数据这几个维度来去介绍一下当前大家会做到哪些的工作,来去进一步赋能这个自动驾驶,推动这个自动驾驶的一个实现。 发言人03:11 首先总体上来看的话,其实自动驾驶也是AI领域的一个比较大的一个应用。正如这个AI它的这个三要素是算算法算力和数据一样。自动驾驶其实它核心的这个要素其实也是这三个。一方面就是说我们就像这个小朋友做题一样,就是我们希望让这个小朋友有很好的学习成绩。首先他的脑力其实是达到一定的这个水平了。其实就是说基础的车端的算力以及云端的算力,其实对于自动驾驶而言,都是非常关键的一个环节。 发言人03:48 其次就是数据层面,其实我们也知道就是我们去训练这个模型,让他去学会自动驾驶。其实和我们去教小猫做题是类似的,我们希望他去做更多的题。这样的话在考试的时候,其实就遇不到他没有见过的题 目。那这个时候他就会得出一个比较好的一个成绩。所以这个里边的话,其实前期的这个训练这个题的丰富度,然后它的这个数量可能也是非常关键的。 发言人04:14 最后就是这个算法层面,我的这个思维方式,包括我的这个学习方法,其实也会决定我到底能有以多快的速度学会。我想想学到这个知识点,以及我对这些知识的理解程度到底是怎么样。所以后下面我们基本上会从这三个维度去介绍一下这个自动驾驶的一个行业的一个情况。 发言人04:35 其实前面的这个两期,其实我们也提到,尤其在第二期其实我们也提到,行业经过从高精地图加激光雷达,到BEA传former,再到加叠加占用网络,再到最新的今年特斯拉端到端的这个算法上车。其实整个行业也是经历了大幅的算法的一个变革。而我们今年看到的,特斯拉已经有非常裱好的表现 的FS的V12的这样的一个端到端的版本,其实是代表了目前最先进的一个技术。但是我们就想知道,以现有的端 到端的这个算法,我们去把它的数据的规模推高,然后把它的范围推上去,是不是他就可以去解决所有我们驾驶中可能遇到的这样一个问题了。其实我们现在来以我们现在的思考来看的话,可能不一定是可以做得到的。就是说呃我们可能还是需要在算法上面有一些更底层的一些变革,来去推动我们的能力进入到更高的一个水平。 发言人05:36 因为我们现在其实也可以看到,包括我们我们自己可能也在海外那边会有一些找一些海外的博主,然后来对特斯拉的最新版本的FSD进行一个,现场的直播。同时是网上也有非常多的视频去介绍,FSD的这个V12版本,包括12点32、42.5这些不同的版本,它们的性能怎么样。现在其实我们观察到的这个结果来看的话,12.5确实是有一个非常好的一个驾驶的表现。但是它并不是能够处理所有的这个场景,就是我的驾驶员其实还是需要把我的精力集中到这个驾驶上,因为很多的这个场景其实他还是不太好处理的那具体是哪些场景不太好处理呢?其实我们这边收集了一些案例。那这里边的话可能有各种各样的场景,我们可以分开来看。 发言人06:26 第一个场景就是这个车子是走到了一个青藏高原的道路上。那这个时候其实前方是有一个牦牛群,面向了我的这个来车来去走过来的。那这个时候其实如果是以人类驾驶员在开车的话,驾驶员可能会逐步的减速缓行,但是不会停下来,可能会慢慢的往前走。因为我们人知道牦牛他会主动的去,会主动让我这个车子的。但是如果是一个自动驾驶方法,可能他会觉得说你前面这个动态的这个障碍物,那我是应该停下来,等他过去以后我再往前走。但是如果要是采取这样的策略的话,那么如果牦牛非常多的话,可能我要在这边停非常长的时间,可能都过不去这一段的这个路段。 发言人07:10 第二个这个图,我们看右边横向第二个图,这个是一个钉子板。这样的一个障碍物其实就非常依赖这个算法的一个数据的一个积累。如果我们算法前期没有积累到这样的一个障碍物的话,那可能他就会把它认为是一个高度不是特别高的一个横向的一个障碍物。那这个时候其实会把它当成一个比如说砖这样的一些物体来处理,那可能就会缓慢的去经过。但如果是在这种情况下的话,可能这个轮胎就被扎爆了。 所以其实这个场景也是需要这个模型。至少要么就是他直接对于针对这样的一个物体做过专门的训练,他懂得这个物体代表什么样的含义。要么就是还需要对于普世的常识有一定的理解。 发言人07:56 第三个图,其实我们也看到像一些潮汐车道,他们的这个只是可能会是错综复杂的。有些潮汐车道可能会像我们这个图里面,他会写在这个地上,写一写,写写的比较明确。还有一些可能会在一些交通标志物上写出来。那这个时候就是说这个潮汐车道它怎么样去呈现,以及他的所能够行驶的时间到底是白天还是晚上,这个其实场景是非常变化多端的那那我们猜想我们去设想一下,就是说像这种端到端的模型,是不是能够很好的去处理各种各样的这个超级车道的一个指示。 发言人08:33 那我们看下一行,就是我们看左边的这个图。这个图里边其实它展示一个场景。因为是一个静态图,我们看不出来它是一个在车子在乡间的这个小路上行驶。这个时候侧边有一个比较高的一个树,然后他缓缓的倒下来砸到了这个路上。人类驾驶员在遇到这样的情情景的时候,他就可能看到这个树有一些倾斜以后,车子可能就会提前停车,要么就是加速冲过去。但是。方法可能就不太明白这个数,比如说又稍微有一些倾斜,它代表什么样的含义?可能还是会自行挖尾往前开,直到这个数让这个激光雷达扫到,或者是被这个车子观察到,遮挡了前方的这个道路,可能他才会停下来刹车。 发言人09:16 我们看第五个图,其实就是一个非常奇怪的一个异形的一个人的一个手势。他其实是代表不要往前走的这样一个意思。但是我们知道算法的话,其实是需要专门见过这样的场景,这样的数据之后,他怎么可能才会学得到理解这个手势是什么样的含义。 发言人09:34 最后一个,其实我们看到像一些下雪天的场景是没有这个车道线的那这个时候人类的话其实一般都会跟着前车的这个车辙往前走就可以。但是对算法来说的话,又需要去单独针对这个场景去单独的去训练,让他学习在这种场景下怎么开车。否则的话他可能不太能够找得到这个地方的车道线在哪里,到底我应该怎么样驾驶,可能会更加的安全。所以其实我们可以看到,就是即使我们拥有了这个端到端的方法,可能有一些小问题也是不可以解,也是不太好解决的那这个里边的话,其实我们就涉及到一个公共安全的一些概念。 发言人10:11 我们之前去解决自动驾驶的这个长尾场景的这个思路,其实就是我们图中的画的这个区域的这样的一个思路。首先就是通常公共安全会把这个场景分成四类,已知安全、已知不安全、未知安全和未知不安全这几类。你是安全 的,就是说我已经知道它是安全的,也就表明我是可以我的方法是可以在这种场景下去处理这样的问题的。这个其实主要还是在这个绿色的圈里边的一些这样的一个区域里面的一些事件。另外一种就是说已知不安全,就是说我人类是知道这个场景是不安全的,但是算法自己他还没有去体验到这样的一个不安全的场景到底是怎么样,他应该怎么样去处理这样的不安全的场景。 发言人10:53 这个范围其实就是处在这个蓝色的圈和这个绿色圈之间的这样一个范围。我们去通常我们的做法就是让这个算法去学习,去在这种不安全,已知不安全的这样场景里边去训练。然后让他学习到人类怎么处理这样的场景。把这个已经不安全的区域变成已知安全的这样的一个区域里面。但是其实我们看到还有一个白色的区域,那就是说这个位置不安全。Onon就是说我们在实际上我们训练模型的时候,可能我们自己都不知道这个场景是不安全的。这个其实就有一个问题,就是说我们是没法去提前让模型去训练这个场景的。这个事件因为这个事件我们我们自己也不知道会有什么事件。 发言人11:36 在这个区域里边,这样讲的话可能会略有一些抽象。我们可能会以这个我们再举一个例子,就比如说前面这个树木倒下的这个案例。那这个数目在这个车子走过来之前,其实它可能生长了已经有几十年或者上百年。但是但这个树木其实一直没有倒下来,只有在这个车子到了这个位置的时候的这一天的这一刻,然后这个树木才倒下来,拦到了这个路上。在这样一个场景下,其实我们就可以看到,理论上这个车主无论或者这个车上有无论有多少辆的车,其实他都都不可能把这个树木倒下来的这个场景给学习到。因为倒下来这个事情只有未来才会发生,它历史上就没有发生过。 发言人12:21 那像这种历史上没有发生,未来才会发生的这个案例。其实以我们之前的这种通过大规模的数据收集来去解决自动驾驶所遇到的这种长尾场景的这个思路,可能就不一定能行得通了。所以这也是为什么现在其实很多的这个场景大家就发现,实际上虽然我已经收集了很多的数据。但是似乎这种长尾场景是啊无穷无尽,永远都会有新的长尾场景出现。所以其实大家在已经算法迭代到这个程度,但是仍然还遇到一些比较麻烦的问题之后,其实反过来研究,大家就会工程师们就去探求一下说那那我们自己人类为什么开车就可以开的这么好呢?所以这就看就衍生出来其实包括理想最近提到的这个专业VM双系统的这样一个方案。 发言人13:09 其实也是回头去看一下人类驾驶到底有什么样的