行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

为什么说TPU可能是更适合AI的下一代架构

2024-07-31戴明宇、杨总AIRPO路***

1、TPU的技术优势 •TPU作为学术界唯一公认优于GPU的架构，已经在北美市场引起了特斯拉、谷歌等大玩家的关注，并开始布局下一代架构。TPU的设计目标是成为AI界的x86，统领整个AI时代的指令集和工作方式。 •TPU的计算单元设计针对深度学习进行了优化，特别是其张量计算方式（TensorCore），使得它在同样的芯片面积和能耗下，比GPU有3.5倍的性能提升。TPU在云上的租赁价格也显著低于GPU，进一步降低了成本。 •TPU的架构设计使其在大规模计算集群中具有独特的优势。TPU采用VectorProcessor和VeryLongInstructionWord(VLIW)架构，能够更好地利用芯片资源，提高计算效率。这些设计使得TPU在深度学习任务中表现出色。 2、TPU的市场应用与发展 •谷歌的TPU已经从最初的原型产品发展到大规模量产，今年的生产量已经超过200万片，占据全球25%的市场份额。谷歌的TPU在内部应用中表现出色，特别是在大模型训练和推荐系统中，显示出比GPU更高的精度和效益。 •TPU在大模型训练中的优势显著，特别是在大规模集群服务中，谷歌云已经开始提供大规模集群的TPU服务，吸引了包括苹果在内的大型企业使用。TPU的高性价比使其在市场上具有强大的竞争力。 •中航信作为国内TPU龙头企业，已经完成了TPU芯片的流片和量产，年产量超过2万片。中航信的TPU产品已经涵盖了大模型公司和主要的四大云商，并与国内顶尖学府合作，推动大模型在教育、医疗和金融等领域的应用。 3、TPU的未来发展与挑战 •TPU的设计和生产周期较长，从0到1的生产设计过程需要4到5年，规模化生产需要7到10年。尽管如此，TPU的技术领先性和市场潜力使其成为未来AI芯片的重要方向。 •TPU在大模型中的应用前景广阔，特别是在实现类人类智力水平的模型方面。随着模型参数的增加，TPU能够更好地支持大规模计算，推动AI在各行业的应用和发展。 •中航信在国内推动自主可控的TPU发展，旨在应对中美技术博弈的挑战。通过与国内顶尖学府和企业合作，中航信希望打造一个完整的TPU生态系统，推动AI大模型的落地和盈利。 1、TPU的崛起与前景 •大家好，欢迎大家参加我们的电话会议。我是华源研究的戴明宇。大家也看到了，昨天苹果开始系统性地使用TPU完成大模型的训练，使得A股市场首次正式认识到TPU的价值。 •作为学术界目前唯一公认优于GPU的架构，TPU在北美早有反响。像特斯拉、谷歌这样的大玩家，以及一些新的创业企业，都开始布局下一代的架构。基于此，今天我们非常荣幸能够在二级市场对TPU认知的关键时刻，邀请到国内TPU龙头企业中航信的创始人杨梦一凡杨总，为大家做一个关于TPU的深度解读。杨总不仅经历了大模型在训练初期对GPU的应用，而且完整参与了谷歌TPU从第二代到第四代的核心团队的研发、设计及应用。接下来，我把时间交给杨总。 •好的，谢谢戴总。各位线上的朋友，我先根据大家关心的问题，做一些简单的介绍这次交流主要是介绍TPU到底是什么，以及为什么我们认为TPU会成为未来大模型，甚至AI产业的主要应用芯片。我们希望TPU在AI界能像x86在CPU时代那样统领整个指令集。我们认为TPU的指令和工作方式将成为未来AI的黄金架构。 •首先，请允许我做一个个人介绍。我是杨梦一凡，中航信的创始人兼CEO。我在2005年考入上海交通大学，2006年交流到韩国汉阳大学。在交换期间，我们研发了SKTelecom的高性能4G网络芯片。在这个过程中，我发现当时中国和海外在芯片设计上有一定差距。于是2007年我转学到密歇根大学，专攻计算机芯片设计和架构研发，并发表了一些顶级论文。之后，我在斯坦福大学跟随美国工程院士自豪·沈里昌研究高性能CPU的研发及计算机架构的迭代。 •2011年，甲骨文并购了一家关系型数据库公司，我和一些斯坦福的师兄和老师加入了Oracle团队，构建高性能CPU。到2017年，硅谷普遍认为未来20年是AI的时代。虽然大公司还未完全显露头角，但我们认为AI和计算体系的发展将使AI逐步替代生产力，成为核心生产力。因此，我们的高性能CPU团队转向AI芯片研发，并有幸加入谷歌，成为谷歌TPU核心团队之一，完成了TPU第二代到第四代的设计。在这个过程中，我们发现只要有足够的算力，模型架构就能展现出人类的智力水平。尤其是在TPU第二代和第三代的落地过程中，TPU的张量计算方式（TensorCore，TC）为后来的AttentionOOD论文奠定了基础，也就是现在大家熟知的Transformer。 •这篇论文的核心创新点是将神经网络中的卷积计算替代为矩阵计算，从而优化计算方式，催生了后来的Transformer、BERT、SwitchTransformer和GPT等模型。我们看到人工智能的发展趋势，因此决定创业，研发国产可控的GPU。经过7到8年的发展，TPU已经从原型产品逐步变成谷歌的战略产品，并实现量产。今年谷歌的TPU产量已超过200万片，预计到年底，谷歌将占据全球超过25%的市场份额。这也是为什么去年年底推出了GPUport这个词。根据谷歌的生产量推算，谷歌的算力相当于苹果、亚马逊和微软等巨头公司的总和。 •最初，TPU主要用于谷歌内部计算，因为卖硬件的实际价值有限。通过将TPU部署成系统，完成大模型训练或推荐系统的训练，TPU展现出比GPU更高的性能和更低的能耗，从而产生更高的精度和效益。因此，TPU在谷歌内部得以立项。随着大模型的爆发，谷歌的生态系统也在改变，开始向外提供咨询服务。以前在谷歌云上只能使用4K到16K的GPU进行demo测试，不适合大模型训练和推理。随着大模型的出现，谷歌开始在云上为大型企业提供大规模集群服务。 •杨总，不好意思，我打断一下，声音有点模糊。您能稍微调试一下吗？ •好的，我试一下。 •现在好一点吗？ •您可能需要语速稍微慢一点，声音大一点，这样会好很多。 •好的，现在好很多。 2、TPU与GPU在AI计算中的优势对比 •好的，那我语速慢一点，然后声音再放大一点。刚才提到，苹果昨天晚上发布了一篇论文和一个模型，使用谷歌的TPUv4训练集群完成了模型的训练，并用TPUv5逐步完成了模型的部署。关于TPU和GPU的区别，后面会具体说明。从大的方向上来说，TPU是专为深度学习设计的，其基本算子（matmul）被广泛应用于当前的大模型中。因此，在相同的芯片制造工艺、面积和能耗下，TPU的性能比GPU高出3.5倍。如果在集群上进行部署，TPU能够带来更低廉的成本。比如在云上租赁TPU的价格，在同等性能下，仅为H100或A100的二分之一到四分之一。这就是为什么TPU逐渐崭露头角，成为未来AI芯片的主流。 •我们接下来讨论一下，为什么TPU和DPU在当前浪潮中具有价值，以及TPU和GPU在这个浪潮中的不同之处。随着模型逐渐变大，计算需求发生变化，整个计算领域迎来了最大的变革和创新。无论是英伟达还是其他公司，都在公开场合提到过类似的判断。大模型和大规模计算的出现，打破了以往在单块芯片上完成所有计算的模式。过去的计算模式中，多个任务可以在并行计算机上完成，但大模型需要在成千上万块芯片上进行计算，这带来了新的计算架构需求，给了新的芯片架构和创业公司机会，这也是GPU的价值所在。 •回到本质，我们来看TPU与GPU的不同之处，以及TPU在大规模计算集群中的独特优势。首先，TPU的计算单元设计不同于GPU。GPU原本是为图形显示和计算设计的，主要用于3D图形显示和计算。它需要在显示器上每个像素点独立计算和控制，因此GPU采用了多核架构，每块芯片上有上万甚至两万个核，可以单独控制每个像素，实现最佳计算能力。 •在人工智能场景中，深度学习每一层都是一个统计学模型，通过超过10层的统计学模型和特定的非线性算子进行分离，最终完成结果推断。例如，视觉模型可以识别一个杯子，并推断杯子里有水。在计算过程中，统计学模型可以用数学表达式来完成。因此，TPU设计的芯片可以更好地完成特定数学表达式的计算，比高并发性的GPU有更优的结果。 •再来看GPU在人工智能学习中的问题。以A100和B100为例，每块芯片上有超过1万个核，可以看作是一个通用型工厂，工人可以生产各种产品。当任务分配给这1万个工人时，需要将任务分解成很多步骤，让他们在这些步骤上进行优化和生产。 3、TPU架构优化与效率提升 •你会发现一个问题，因为每个工人都不专业，但他们每个工人都有一个工作种类。所以你要合理地分配这些工人到每个阶段的工作上，是件非常复杂的事情。而且我可以定制化一个工作，对吧？但是如果我的工厂需要支持不同种类的工作，你就会发现我不能定制化一款产品了。我就得把调度算法写得足够复杂，确保所有的产品都能支持。 •这是什么呢？这就是扩展性，这也是英伟达在其GPU产品上的最大壁垒。英伟达用了20年的时间构建了一个完整的生态系统，这个生态系统让它在行业领域中独树一帜。 •但是我们还是回到刚才的问题，因为它的通用性实在太强了。虽然英伟达优化了20年，但优化实在是太难了，所以最后的结果是什么？虽然深度学习的算法可以引入，但在大部分算法上，整个芯片的半导体利用率其实只有10%到20%，非常低。所以我们只需要设计一个芯片，使其半导体利用率超过这个指标，就能明显看到性能提升。如果芯片的利用率不是10%到20%，而是50%到60%，那么你就能看到三倍以上的性能提升。这就是为什么除了刚才提到的计算特点，TPU还有不同的架构来完成优化。 •了解这些特点后，我们开始设计TPU。最简单的思路是，既然知道要支持的应用场景有限，我的生产不是生产飞机大炮和杯子，而可能只生产一个碗，虽然这个碗可能很复杂，有很多花纹和雕刻的步骤。所以我可以训练出1000个工人，这些工人的每个技术特点都非常明显，可以统一安排在生产线上完成任何碗的雕花步骤。只要给我一个碗或类似碗的产品，我就能很容易地分配好这1000个人去完成生产。 •这就是TPU核心设计的逻辑。我不需要那么多人和资源，而是把每个人的利用率都发挥到最好。那么它的直接体现是什么？直接体现是如果单看CPU的算力指标，它其实不如GPU。无论是GPU1、GPU2、GPU3，还是后面的GPU4和GPU5，对标每一层级的CPU，单看算力指标，CPU都比GPU低。但因为TPU的利用率高，所以跑出来的模型性能比GPU高，生产成本比GPU低，综合效率也比GPU好。这就是TPU的核心价值所在。 4、TPU架构设计与优化 •在这样的背景下，我们开始探讨TPU的设计逻辑。TPU作为一个统计学模型，可以表达成数学表达式。因此，芯片的指令应当能够完成所有数学表达式的运算。在实际硬件实现中，需要特定的硬件单元来处理非线性方程，例如sigmoid或tanh函数。 •在CPU上，完成这些运算只需一行程序即可实现，例如512次的tanh计算。而在TPU上，为了保证精度，可能需要进行20到30次计算才能完成一个tanh运算。这导致TPU的硬件效率比CPU低很多。 •在硬件实现方面，TPU降低了通用核的数量和控制逻辑的复杂性，可能一个芯片只控制128个或更少的单元。每个单元可以实现很多功能，并行化程度很高。这种架构被称为向量处理器（VectorProcessor），通过顺序时间的方式降低内存带宽需求。例如，一个指令可以在第一个周期到第1024个周期内，每个周期都从内存获取数据，从而大幅提升内存带宽利用率。 •向量处理器在减少控制逻辑数量的情况下，可以部署更多的计算资源，充分利用芯片资源。因此，向量处理器非常适合深度学习的架构。 •然而，向量处理器的信息化程度不高，因此业界采用了另一种架构，称为超长指令字（VeryLongInstructionWord,VLIW）。一个指令可以执行多达五到十个操作，例如数据存储、数据读取、数据判断、乘法加法以及远端通信等。这种架构可以更好地完成深度学习的

点击免费查看完整报告

你可能感兴趣

为什么说TPU可能是更适合AI的下一代架构

你可能感兴趣

为什么说ARM可能是国产计算架构的最优选择

为什么人类的数字体验更适合企业

国君电子|Blackwell Ultra架构更新,CPO赋能下一代AI计算

美股AI周报：美国非农就业超预期，英伟达计划推出下一代GPU架构Rubin

MACOM Technology Solutions Holdings Inc：FY24Q3业绩点评及法说会纪要：数据中心业务同比高增，公司已着手研发应用于3.2T的下一代产品