1、TPU的技术优势 •TPU作为学术界唯一公认优于GPU的架构,已经在北美市场引起了特斯拉、谷歌等大玩家的关注,并开始布局下一代架构。TPU的设计目标是成为AI界的x86,统领整个AI时代的指令集和工作方式。 •TPU的计算单元设计针对深度学习进行了优化,特别是其张量计算方式(TensorCore),使得它在同样的芯片面积和能耗下,比GPU有3.5倍的性能提升。TPU在云上的租赁价格也显著低于GPU,进一步降低了成本。 •TPU的架构设计使其在大规模计算集群中具有独特的优势。TPU采用VectorProcessor和VeryLongInstructionWord(VLIW)架构,能够更好地利用芯片资源,提高计算效率。这些设计使得TPU在深度学习任务中表现出色。 2、TPU的市场应用与发展 •谷歌的TPU已经从最初的原型产品发展到大规模量产,今年的生产量已经超过200万片,占据全球25%的市场份额。谷歌的TPU在内部应用中表现出色,特别是在大模型训练和推荐系统中,显示出比GPU更高的精度和效益。 •TPU在大模型训练中的优势显著,特别是在大规模集群服务中,谷歌云已经开始提供大规模集群的TPU服务,吸引了包括苹果在内的大型企业使用。TPU的高性价比使其在市场上具有强大的竞争力。 •中航信作为国内TPU龙头企业,已经完成了TPU芯片的流片和量产,年产量超过2万片。中航信的TPU产品已经涵盖了大模型公司和主要的四大云商,并与国内顶尖学府合作,推动大模型在教育、医疗和金融等领域的应用。 3、TPU的未来发展与挑战 •TPU的设计和生产周期较长,从0到1的生产设计过程需要4到5年,规模化生产需要7到10年。尽管如此,TPU的技术领先性和市场潜力使其成为未来AI芯片的重要方向。 •TPU在大模型中的应用前景广阔,特别是在实现类人类智力水平的模型方面。随着模型参数的增加,TPU能够更好地支持大规模计算,推动AI在各行业的应用和发展。 •中航信在国内推动自主可控的TPU发展,旨在应对中美技术博弈的挑战。通过与国内顶尖学府和企业合作,中航信希望打造一个完整的TPU生态系统,推动AI大模型的落地和盈利。 1、TPU的崛起与前景 •大家好,欢迎大家参加我们的电话会议。我是华源研究的戴明宇。大家也看到了,昨天苹果开始系统性地使用TPU完成大模型的训练,使得A股市场首次正式认识到TPU的价值。 •作为学术界目前唯一公认优于GPU的架构,TPU在北美早有反响。像特斯拉、谷歌这样的大玩家,以及一些新的创业企业,都开始布局下一代的架构。基于此,今天我们非常荣幸能够在二级市场对TPU认知的关键时刻,邀请到国内TPU龙头企 业中航信的创始人杨梦一凡杨总,为大家做一个关于TPU的深度解读。杨总不仅经历了大模型在训练初期对GPU的应用,而且完整参与了谷歌TPU从第二代到第四代的核心团队的研发、设计及应用。接下来,我把时间交给杨总。 •好的,谢谢戴总。各位线上的朋友,我先根据大家关心的问题,做一些简单的介绍这次交流主要是介绍TPU到底是什么,以及为什么我们认为TPU会成为未来大模型,甚至AI产业的主要应用芯片。我们希望TPU在AI界能像x86在CPU时代那样统领整个指令集。我们认为TPU的指令和工作方式将成为未来AI的黄金架构。 •首先,请允许我做一个个人介绍。我是杨梦一凡,中航信的创始人兼CEO。我在2005年考入上海交通大学,2006年交流到韩国汉阳大学。在交换期间,我们研发了SKTelecom的高性能4G网络芯片。在这个过程中,我发现当时中国和海外在芯片设计上有一定差距。于是2007年我转学到密歇根大学,专攻计算机芯片设计和架构研发,并发表了一些顶级论文。之后,我在斯坦福大学跟随美国工程院士自豪·沈里昌研究高性能CPU的研发及计算机架构的迭代。 •2011年,甲骨文并购了一家关系型数据库公司,我和一些斯坦福的师兄和老师加入了Oracle团队,构建高性能CPU。到2017年,硅谷普遍认为未来20年是AI的时代。虽然大公司还未完全显露头角,但我们认为AI和计算体系的发展将使AI逐步替代生产力,成为核心生产力。因此,我们的高性能CPU团队转向AI芯片研发,并有幸加入谷歌,成为谷歌TPU核心团队之一,完成了TPU第二代到第四代的设计。在这个过程中,我们发现只要有足够的算力,模型架构就能展现出人类的智力水平。尤其是在TPU第二代和第三代的落地过程中,TPU的张量计算方式 (TensorCore,TC)为后来的AttentionOOD论文奠定了基础,也就是现在大家熟知的Transformer。 •这篇论文的核心创新点是将神经网络中的卷积计算替代为矩阵计算,从而优化计算方式,催生了后来的Transformer、BERT、SwitchTransformer和GPT等模型。我们看到人工智能的发展趋势,因此决定创业,研发国产可控的GPU。经过7到8年的发展,TPU已经从原型产品逐步变成谷歌的战略产品,并实现量产。今年谷歌的TPU产量已超过200万片,预计到年底,谷歌将占据全球超过25%的市场份额。这也是为什么去年年底推出了GPUport这个词。根据谷歌的生产量推算,谷歌的算力相当于苹果、亚马逊和微软等巨头公司的总和。 •最初,TPU主要用于谷歌内部计算,因为卖硬件的实际价值有限。通过将TPU部署成系统,完成大模型训练或推荐系统的训练,TPU展现出比GPU更高的性能和更低的能耗,从而产生更高的精度和效益。因此,TPU在谷歌内部得以立项。随着大模型的爆发,谷歌的生态系统也在改变,开始向外提供咨询服务。以前在谷歌云上只能使用4K到16K的GPU进行demo测试,不适合大模型训练和推理。随着大模型的出现,谷歌开始在云上为大型企业提供大规模集群服务。 •杨总,不好意思,我打断一下,声音有点模糊。您能稍微调试一下吗? •好的,我试一下。 •现在好一点吗? •您可能需要语速稍微慢一点,声音大一点,这样会好很多。 •好的,现在好很多。 2、TPU与GPU在AI计算中的优势对比 •好的,那我语速慢一点,然后声音再放大一点。刚才提到,苹果昨天晚上发布了一篇论文和一个模型,使用谷歌的TPUv4训练集群完成了模型的训练,并用TPUv5逐步完成了模型的部署。关于TPU和GPU的区别,后面会具体说明。从大的方向上来说,TPU是专为深度学习设计的,其基本算子(matmul)被广泛应用于当前的大模型中。因此,在相同的芯片制造工艺、面积和能耗下,TPU的性能比GPU高出3.5倍。如果在集群上进行部署,TPU能够带来更低廉的成本。比如在云上租赁TPU的价格,在同等性能下,仅为H100或A100的二分之一到四分之一。这就是为什么TPU逐渐崭露头角,成为未来AI芯片的主流。 •我们接下来讨论一下,为什么TPU和DPU在当前浪潮中具有价值,以及TPU和GPU在这个浪潮中的不同之处。随着模型逐渐变大,计算需求发生变化,整个计算领域迎来了最大的变革和创新。无论是英伟达还是其他公司,都在公开场合提到过类似的判断。大模型和大规模计算的出现,打破了以往在单块芯片上完成所有计算的模式。过去的计算模式中,多个任务可以在并行计算机上完成,但大模型需要在成千上万块芯片上进行计算,这带来了新的计算架构需求,给了新的芯片架构和创业公司机会,这也是GPU的价值所在。 •回到本质,我们来看TPU与GPU的不同之处,以及TPU在大规模计算集群中的独特优势。首先,TPU的计算单元设计不同于GPU。GPU原本是为图形显示和计算设计的,主要用于3D图形显示和计算。它需要在显示器上每个像素点独立计算和控制,因此GPU采用了多核架构,每块芯片上有上万甚至两万个核,可以单独控制每个像素,实现最佳计算能力。 •在人工智能场景中,深度学习每一层都是一个统计学模型,通过超过10层的统计学模型和特定的非线性算子进行分离,最终完成结果推断。例如,视觉模型可以识别一个杯子,并推断杯子里有水。在计算过程中,统计学模型可以用数学表达式来完成。因此,TPU设计的芯片可以更好地完成特定数学表达式的计算,比高并发性的GPU有更优的结果。 •再来看GPU在人工智能学习中的问题。以A100和B100为例,每块芯片上有超过1万个核,可以看作是一个通用型工厂,工人可以生产各种产品。当任务分配给这1万个工人时,需要将任务分解成很多步骤,让他们在这些步骤上进行优化和生产。 3、TPU架构优化与效率提升 •你会发现一个问题,因为每个工人都不专业,但他们每个工人都有一个工作种类。所以你要合理地分配这些工人到每个阶段的工作上,是件非常复杂的事情。而且我可以定制化一个工作,对吧?但是如果我的工厂需要支持不同种类的工作,你就会发现我不能定制化一款产品了。我就得把调度算法写得足够复杂,确保所有的产品都能支持。 •这是什么呢?这就是扩展性,这也是英伟达在其GPU产品上的最大壁垒。英伟达用了20年的时间构建了一个完整的生态系统,这个生态系统让它在行业领域中独树一帜。 •但是我们还是回到刚才的问题,因为它的通用性实在太强了。虽然英伟达优化了20年,但优化实在是太难了,所以最后的结果是什么?虽然深度学习的算法可以引入,但在大部分算法上,整个芯片的半导体利用率其实只有10%到20%,非常低。所以我们只需要设计一个芯片,使其半导体利用率超过这个指标,就能明显看到性能提升。如果芯片的利用率不是10%到20%,而是50%到60%,那么你就能看到三倍以上的性能提升。这就是为什么除了刚才提到的计算特点,TPU还有不同的架构来完成优化。 •了解这些特点后,我们开始设计TPU。最简单的思路是,既然知道要支持的应用场景有限,我的生产不是生产飞机大炮和杯子,而可能只生产一个碗,虽然这个碗可能很复杂,有很多花纹和雕刻的步骤。所以我可以训练出1000个工人,这些工人的每个技术特点都非常明显,可以统一安排在生产线上完成任何碗的雕花步骤。只要给我一个碗或类似碗的产品,我就能很容易地分配好这1000个人去完成生产。 •这就是TPU核心设计的逻辑。我不需要那么多人和资源,而是把每个人的利用率都发挥到最好。那么它的直接体现是什么?直接体现是如果单看CPU的算力指标,它其实不如GPU。无论是GPU1、GPU2、GPU3,还是后面的GPU4和GPU5,对标每一层级的CPU,单看算力指标,CPU都比GPU低。但因为TPU的利用率高,所以跑出来的模型性能比GPU高,生产成本比GPU低,综合效率也比GPU好。这就是TPU的核心价值所在。 4、TPU架构设计与优化 •在这样的背景下,我们开始探讨TPU的设计逻辑。TPU作为一个统计学模型,可以表达成数学表达式。因此,芯片的指令应当能够完成所有数学表达式的运算。在实际硬件实现中,需要特定的硬件单元来处理非线性方程,例如sigmoid或tanh函数。 •在CPU上,完成这些运算只需一行程序即可实现,例如512次的tanh计算。而在TPU上,为了保证精度,可能需要进行20到30次计算才能完成一个tanh运算。这导致TPU的硬件效率比CPU低很多。 •在硬件实现方面,TPU降低了通用核的数量和控制逻辑的复杂性,可能一个芯片只控制128个或更少的单元。每个单元可以实现很多功能,并行化程度很高。这种架构被称为向量处理器(VectorProcessor),通过顺序时间的方式降低内存带宽需求。例如,一个指令可以在第一个周期到第1024个周期内,每个周期都从内存获取数据,从而大幅提升内存带宽利用率。 •向量处理器在减少控制逻辑数量的情况下,可以部署更多的计算资源,充分利用芯片资源。因此,向量处理器非常适合深度学习的架构。 •然而,向量处理器的信息化程度不高,因此业界采用了另一种架构,称为超长指令字(VeryLongInstructionWord,VLIW)。一个指令可以执行多达五到十个操作,例如数据存储、数据读取、数据判断、乘法加法以及远端通信等。这种架构可以更好地完成深度学习的