证 券 研2024年06月29日 究 报首款Transformer专用芯片Sohu亮相,10倍于 告B200速度成为最快AI芯片 推荐(维持)投资要点 —计算机行业周报 分析师:宝幼琛S1050521110002baoyc@cfsc.com.cn 行业相对表现 表现 1M 3M 12M 计算机(申万) -5.3 -16.1 -35.6 沪深300 -4.2 -2.1 -9.4 市场表现 (%)计算机沪深300 10 0 -10 -20 -30 -40 -50 资料来源:Wind,华鑫证券研究 相关研究 1、《计算机行业周报:华为HarmonyOSNEXT强势亮相,“纯血鸿蒙”有望重塑AI操作系统市场格局》2024-06-23 2、《计算机行业周报:AMD公布MI325X同台竞技英伟达,“年更”预示AI芯片竞争趋于白热化》2024-06-16 3、《计算机行业动态研究报告:车路一体化项目接连启动,智慧交通市场有望提质增速》2024-06-11 行业研究 ▌算力:算力租赁价格平稳,TransformerASIC芯片Sohu计算速度超B20010倍 本周算力租赁价格环比持平。在产业动态方面,6月26日,Etched公司推出全球首款Transformer专用集成电路(ASIC)芯片Sohu。Sohu采用台积电的4nm工艺制造,只有1个核心,每张芯片配有144GBHBM3E高带宽内存,推理性能明显优于GPU和其他通用人工智能芯片,同时能耗更低。在Llama70B吞吐量中,Sohu每秒可以处理超过50万个tokens,速度超过H100的20倍,并超过英伟达今年3月推出的顶配芯片B200的10倍。同时,Sohu实现了90%以上的FLOPS利用率,相比之下使用TRT-LLM的GPU约为30%。当前,OpenAI、谷歌、亚马逊、微软、Meta等所有大型科技公司都在使用Transformer模型,市场前景广阔。Sohu的推出无疑是Transformer芯片领域的一大进步,能够为未来亿万级参数模型的运行赋能。 ▌AI应用:科大讯飞大发布星火大模型V4.0,全面对标GPT-4Turbo 6月27日,科大讯飞正式对外发布了讯飞星火大模型V4.0,以及在医疗,教育,商业等多个领域的人工智能应用。讯飞星火V4.0七大核心能力全面升级,在国内外涵盖理解,推理,综合考试,数学,科学以及代码任务的12项中英文主流测试集中,讯飞星火V4.0在8项测试集中排名第一,领先国内大模型。讯飞星火V4.0在文本生成,语言理解,知识问答,逻辑推理和数学五大能力方面整体超越GPT-4Turbo,进一步缩小在代码,多模态能力方面的差距。目前,星火V4.0的多模态能力达到了GPT-4Turbo97%的水平。讯飞星火V4.0是基础全国首个国产万卡算力集群飞星一号训练而成,完全自主可控。 ▌AI融资动向:EvolutionaryScale获1.42亿美元种子轮融资 本期AI初创公司的融资中,EvolutionaryScale/Etched融资额前二,分别为1.42亿/1.2亿美元。EvolutionaryScale是一家前沿人工智能研究实验室和公益公司,致力于开发生命科学领域的人工智能,构 建了第一个蛋白质大型语言模型ESM1并持续开发下一代ESM3,此轮融资将用于进一步扩展模型能力。Etched专注于打造适用于Transformer架构推理的专业性AI芯片Sohu以及推理服务器,Sohu是迄今为止最快的Transformer芯片,有利于实现超级智能,成为领先的AI芯片供应商。 ▌投资建议 “AI封锁”悄然升级,进一步提升全栈AI技术自主可控要求。6月25日,OpenAI通过官方推送邮件告知API用户,自7月9日起,将阻止来自未列入支持国家和地区名单的区域的API流量,如要继续使用OpenAI的服务,需要在受支持的区域进行访问。海外对于中国AI的限制一直存在,本次为OpenAI正式宣告停止中国的API服务,“AI封锁”下,全栈AI技术国产化迫切性进一步提升。预计随着国产大模型技术进一步提升,大模型将会逐渐向本地进行迁移,迎来新机遇。 建议关注以AI为核心的龙头厂商科大讯飞(002230.SZ)、有望迎来需求爆发的AI应用金桥信息(603918.SH)等。 ▌风险提示 2024-06-29 EPS PE 公司代码 名称 投资评级 1)AI底层技术迭代速度不及预期。2)政策监管及版权风险。3)AI应用落地效果不及预期。4)推荐公司业绩不及预期风险。 股价 2023 2024E 2025E 2023 2024E 2025E 002230.SZ科大讯飞 42.95 0.28 0.40 0.56 153.39 107.38 76.70 买入 002368.SZ太极股份 22.55 0.79 1.01 1.28 28.54 22.33 17.62 买入 603918.SH金桥信息 10.45 0.33 0.49 0.80 31.67 21.33 13.06 买入 资料来源:Wind,华鑫证券研究 正文目录 1、算力动态:算力租赁价格平稳,首款TRANSFORMERASIC芯片SOHU亮相4 1.1、数据跟踪:算力租赁价格平稳4 1.2、产业动态:首款TransformerASIC芯片Sohu亮相,推理速度10倍于B2004 2、AI应用动态:科大讯飞大发布星火大模型V4.0,全面对标GPT-4TURBO7 2.1、流量跟踪:Kimi访问量环比+9.63%7 2.2、产业动态:科大讯飞大发布星火大模型V4.0,全面对标GPT-4Turbo8 3、AI融资动向:EVOLUTIONARYSCALE获种子轮融资额1.42亿美元11 4、行情复盘12 5、投资建议13 6、风险提示14 图表目录 图表1:本周算力租赁情况4 图表2:全球首款TransformerASIC芯片Sohu4 图表3:Llama70B测试中Sohu与H100、B200推理速度对比5 图表4:Sohu芯片参数展示6 图表5:LLM连续batching处理——以4个输入token和四个输出token的序列为例6 图表6:Transformer架构的领导地位和架构趋同性7 图表7:2024.6.18-2024.6.24AI相关网站流量7 图表8:星火大模型V4.0全面升级8 图表9:首发长文本溯源能力9 图表10:两人混叠场景下讯飞星火V4.0语音模型能力对比9 图表11:三人混叠场景下讯飞星火V4.0语音模型能力对比9 图表12:-5dB高噪场景下讯飞星火V4.0语音模型能力对比10 图表13:星火APP/Desk首批上线14个智能体10 图表14:本周AI初创公司的融资动态11 图表15:本周指数日涨跌幅12 图表16:本周AI算力指数内部涨跌幅度排名12 图表17:本周AI应用指数内部涨跌幅度排名13 图表18:重点关注公司及盈利预测14 1、算力动态:算力租赁价格平稳,首款 TransformerASIC芯片Sohu亮相 1.1、数据跟踪:算力租赁价格平稳 本周算力租赁价格环比持平。具体来看,显卡配置为A100-40G中,腾讯云16核+96G价格为28.64元/时,阿里云12核+94GiB价格为31.58元/时;显卡配置为A100-80G中,恒源云13核+128G价格为8.50元/时;阿里云16核+125GiB价格为34.74元/时;显卡配置为A800-80G中,恒源云16+256G的租赁较为紧张。 图表1:本周算力租赁情况 显卡配 置 CPU 内存磁盘大小(G) 平台名称 价格(每 小时) 价格环比上周 A100-40G1696可自定,额外收费腾讯云28.64/元0.00%12核94G可自定,额外收费阿里云31.58/元0.00% A100-80G 13128系统盘:20G数据盘:50GB 恒源云8.50/元0.00% 16核125G可自定,额外收费阿里云34.74/元0.00% A800-80G16256系统盘:20G 数据盘:50GB 资料来源:腾讯云,阿里云,恒源云,华鑫证券研究 恒源云-- 1.2、产业动态:首款TransformerASIC芯片Sohu亮相,推理速度10倍于B200 6月26日,Etched公司宣布完成1.2亿美元A轮融资,将用于开发和销售全球首款Transformer专用集成电路(ASIC)芯片Sohu。Sohu能够实现实时语音代理、毫秒级处理数千字文本、更强大的代码树搜索、并行比较数百个相应、多播推测解码以及实时生成新内容等功能,能够为未来万亿级参数模型的运行赋能。 图表2:全球首款TransformerASIC芯片Sohu 资料来源:Etched官网,华鑫证券研究 Transformer架构首次蚀刻入芯片,推理性能数量级跃升。Etched将研发目光投向芯片专业化,Sohu采用台积电的4nm工艺制造,推理性能明显优于GPU和其他通用人工智能芯片,同时能耗更低。在Llama70B吞吐量中,Sohu每秒可以处理超过50万个tokens,速度超过H100的20倍,并超过英伟达今年3月推出的顶配芯片B200的10倍。换言之,一台集成了8块Sohu的服务器可以匹敌160块H100GPU。同时,针对Llama370B的FP8精度基准测试显示:无稀疏性、8倍模型并行、2048输入或128输出长度。由于Sohu仅能运行一种算法,可以删除绝大多数控制流逻辑,允许拥有更多的数学块,因此,Sohu实现了90%以上的FLOPS利用率,相比之下使用TRT-LLM的GPU约为30%。 图表3:Llama70B测试中Sohu与H100、B200推理速度对比 资料来源:机器之心,华鑫证券研究 突破内存带宽瓶颈,计算能力与利用率强大。Sohu只有1个核心,每张芯片配有144GBHBM3E高带宽内存。在Sohu上,推理是分batch运行的。每个batch都需要加载所有模型权重一次,并在batch的每个token中重复使用。通常LLM输入是计算密集型的,而LLM输出是内存密集型的。当输入和输出token与连续batch结合时,工作负载变成了高度计算密集型。以LLM连续batching处理为例,当运行2048个输入token和128个输出token的Llama370B时,每个batch将需要约304TFLOP,而仅需要加载140GB的模型权重和约72GB的KV缓存权重,这远超内存带宽所需计算量。以H200为例,在利用率100%情况下,其需要6.8PFLOPS的计算才能最大化其内存带宽;若利用率仅为30%,则需要3倍以上的内存。与之相比,Sohu的计算能力和利用率优势明显,因此可以突破内存带宽瓶颈。 图表4:Sohu芯片参数展示 资料来源:Etched官网,华鑫证券研究 图表5:LLM连续batching处理——以4个输入token和四个输出token的序列为例 6 请阅读最后一页重要免责声明 资料来源:机器之心,华鑫证券研究 乘ChatGPT全球火爆之势,芯片专业化性价比更高。SohuTransformer架构芯片应运而生,也为芯片研究提供了新思路——深耕专业化。在ChatGPT之前,Transformer推理的市场约为5000万美元,现在则已达数十亿美元,如OpenAI、谷歌、亚马逊、微软、Meta等所有大型科技公司都在使用Transformer模型。同时,自GPT-2以来,最先进的AI模型架构逐渐趋同,OpenAI的GPT系列、谷歌的PaLM、Meta的LLaMa、甚至特斯拉的FSD都是基于Transformer,由此带来的Transformer算力需求量大,应用场景广阔。Etched称,当模型训练成本超过10亿美元、推理成本超过100亿美元时,使用专用芯片势在必行。在这种产业规模下,1%的改进即可撬动硬件架构的革新。因此,Sohu的推出无疑是Transformer领域的一大进步。 图表6:Trans