您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:特斯拉DOJO深度解析—20230921 - 发现报告
当前位置:首页/会议纪要/报告详情/

特斯拉DOJO深度解析—20230921

2023-09-21未知机构风***
特斯拉DOJO深度解析—20230921

专家介绍 DOJO主要是特斯拉用于云端训练的一个超级计算机,设计目的是为了能够处理大量的数据整体架构:分成6个层级,从内核、芯片、瓦片、模组,机柜,超算机群。 1.最底层的架构就是内核,1个D1芯片上有354个内核,1个内核包含了4个主要的部分: ⚫标量处理单元,这个是有点像英伟达里面的CUDA口,一个标量处理单元它主要包含两个部分:AGU和ALU。AGU主要作用就是去访问内存地址。 专家介绍 DOJO主要是特斯拉用于云端训练的一个超级计算机,设计目的是为了能够处理大量的数据整体架构:分成6个层级,从内核、芯片、瓦片、模组,机柜,超算机群。 1.最底层的架构就是内核,1个D1芯片上有354个内核,1个内核包含了4个主要的部分: ⚫标量处理单元,这个是有点像英伟达里面的CUDA口,一个标量处理单元它主要包含两个部分:AGU和ALU。AGU主要作用就是去访问内存地址。ALU是一个运算处理器。 向量处理单元,针对图像卷积运算来设置的一个单元,共有4线程,这个部分是整⚫个节点最重要的一个部分,也是占了最大面积的一个电路设计单元。 ⚫SRAM,是CPU的一个内存。因为D1主要是针对AI的并行计算做了优化,所以它省略掉了原来CPU设计里面的一些二级缓存,这些设置直接在CPU的旁边放一个Sram,目的主要就是为了更靠近CPU,从而减少数据传输的延迟和带宽的限制,使得数据量的吞吐能够达到最大化。 NOCU,可以理解为是一个片上路由器,它主要是为了在不同的节点之间信息数据的⚫ 交互 2.芯片:以上4个部分就组成了DOJO1个节点的主要结构,可以理解为它是1个完整的1个CPU,具有独立的运算能力。354个节点就是组成了1个D1, 3.Tier:25个D1组成了一个Tier,Tier在25个DI芯片之外,会有40个IO芯片(它主要是为了进行Tier之间的数据交互),整体的Tier 之间的数据交互,单向是4.54Gb/s,双向数据交互全传输速度能够达到9GB/s。 4.模组:6个Tier组成一个模组,模组之间主要是使用把板间通讯,为了使得我们每一个Tier之间计算的数据能够在不同Tier之间进行共享,所以一个dip的接口,会把32GB的HBM内存集成在一个卡上,也就是PCIe的一个板权卡上,每1个Tier会外接5个这样的卡,然后所有的他要计算出来的数据都会存储在hbm里面,然后hbm也可以通过GDP的协议,在一个模组的不同Tier之间进行共享。不同的模组需要通过用到交换机,也就是跨以太网的方式来进行数据分析 5.机柜两个模组构成1个机柜 6.超算机群:10个机柜构成1个超算机群。 封装成本高:比较高,主要是因为它用到了台积电的Infosow技术,这个是一个系统级的封装技术,然后它现在的良品率还不是很高,所以会导致整体的生产成本会相对偏高,所以从短期来看都低端芯片应该是不会对外进行出售的。Infosow是台积电最好的工装技术,全球唯一客户就是特斯拉 商业模式:特斯拉更有可能采用的方式可能是对外租赁自己的超算集群。 Q:从单位的算力成本角度来讲,都有它的是否能够带来算力成本的一个节省 A:比如说以A100这样的一个芯片来对比的话,单个D1芯片比A100高,因为他和A100的整体的架构是完全不一样的,是为了AI的并行计算来进行设计的,所以他在处理AI的信息计算方面的效率会提高很多,这个是因为处理不同的任务带来了不同的一些性能。 Q:D1和A100产品对比? A:D1算力362flops,A100算力312flops,D1在处理图像卷积方面的效率会更高,但是a100通用性会更强一点,这个是要看他们处理不同的任务来定义的。 Q:国内的企业介入的机会?A:交换机、内存可能有机会。 Q:自动驾驶和人性机器人通用性?A:机器人场景更复杂,对应的视频数据也更难获得。 Q:国内车企能对标特斯拉的有哪些?A:华为、小鹏、理想 Q:特斯拉为什么既需要D1又囤货H100 A:D1目前还没有完全搭建成,但是特斯拉的端到端的自动驾驶系统已经快要上线了,所以他为了他必须要去应对这方面的需求 Q:明年1.1亿flops对应D1的比例? A:完全是D1。目标建91个集群。 Q:D1能不能向CUDA一样支持主流人工智能算法框架A:可以。但是在处理图像之外的任务可能效率不高Q:台积电INFO和COWOS区别? A:infosw相当于载体,它消除了对衬底和PCB的使用,在一个紧凑的系统里紧密的包装多个芯片阵列,使解决方案它能够获得晶圆级的优势,比如说低延迟的芯片间通信,高带高 带宽密度和低阻抗等等,获得更强大的这种计算性能和电源这种效率。现在良品率不高,导致成本高。 Q:D1会超过英伟达么? A:我觉得不会,因为本身他们的一个芯片的设计的出发点是不一样的。然后特斯拉的这种芯片它也短期内应该也不会去进行对外销售。 Q:一个DOJO需要多少sram和HMB A:Sram1320GB,HMB30个*32GB=960GB Q:DOJO算力提升需求和增幅?A:一方面是特斯拉实际业务端需求,包括自动驾驶和机器人。另一方面,受制于芯片量产速度。今年预估有4-5万片D1芯片,后续有D2芯片。 Q:D1在视觉领域它的核心优势体现在哪几个点?是有多大的优势? A:视觉领域其实就是为了从图像里面提取特征,所以我们用到的是那种卷积运算,它在自己的每一个节点里面都内置了4线程的一个上乘法器,所以然后它提升了芯片之间的这样一个传输速度,使得卷积运算可以大量的并行计算,而且能够把提取到的特征进行更高速度 的共享。这样的话在人工神经网络里面,它能够更快的完成对一帧图像的特征提取。 Q:D1的互联带宽大概比英伟达的NVLink的这种方案的话高多少? A:我只能说他自己本身的带宽,像Tier之间的话就是9GB每秒,然后Tier和DIP之间的话是4.5tb每秒,是通过特斯拉的GDP协议来进行传输 Q:什么特斯拉去选择自产,而不是可能采用英伟达或者是去定制的一款芯片A:一方面有历史因素,最开始的时候特斯拉在开发自动驾驶的时候,它其实也和英伟达进行了一段时间的合作,但是两家本身对于芯片的理念就不太一样。英伟达它主要是为了通用的AI芯片来进行自己产品的布局的,但是特斯拉来说它只需要一个在视觉领域的芯片专用的一个视觉处理芯片,所以这类的英伟达这类芯片对于它视觉图像视觉数据的处理本身就是 存在一些特斯拉并不或者说不满意的一些局限性。 另一方面,因为英伟达它的供货量本身就会有一些限制,所以突发这样一种算力需求,因为它并不一定能够完全满足它,使使得它发挥很依赖于英伟达的一个供货。Q:今年明年产能? A:7月到年底预期产量大概到4万左右,年化下来可能8万左右。但是因为因封装技术本身它会有比较高的这种不良品率,能不能达到这样一个产量规模还我还得就是还得看实际的 情况了。 Q:D2升级的点在哪里 A:我个人认为的话它主要是增加它的在D1里面的内核的数量,然后它会把卷积计算器的线程数可以增加,现在是4层CPU里面对它的天花板是88线层的,所以我觉得可能会再增加。其他的像静态内存sram可能会在125MB的基础上去增加,