您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中泰证券]:AI系列:光是通信的必由之路,OCS已成功应用 - 发现报告
当前位置:首页/行业研究/报告详情/

AI系列:光是通信的必由之路,OCS已成功应用

信息技术2024-03-12王芳、杨旭、张琼、王九鸿中泰证券严***
AI系列:光是通信的必由之路,OCS已成功应用

证券研究报告 2024年3月12日 AI系列:光是通信的必由之路,OCS已成功应用 中泰电子王芳团队分析师:王芳 执业证书编号:S0740521120002分析师:杨旭 执业证书编号:S0740521120001 分析师:王九鸿 执业证书编号:S0740523110004 分析师:张琼 执业证书编号:S0740523070004 1 摘要 谷歌大模型持续迭代,亟需算力支撑:2023年12月,谷歌推出自身首个多模态大模型Gemini1.0,其中高性能版本GeminiUltra可对标GPT-4,2024年2月16日,谷歌Gemini模型Pro版迭代出1.5版本,该模型在长语境理解方面取得突破,显著增加可处理信息量;2024年2月22日,谷歌推出新型开源模型系列“Gemma”。谷歌不断加速迭代大模型,大模型性能提升除了软件层面优化,更需强大算力支撑 谷歌自研TPU性能不足,引入OCS光交换机提升计算集群性能:根据公开数据,谷歌训练GeminiUltra所使用芯片为TPUv4、TPUv5e,性能无法与英伟达H100相比,TPUv5e峰值算力只有英伟达三年前发布的A100的六成,最新版本TPUv5p峰值算力不到H100的三成,在此背景下,谷歌引入OCS光交换机提升整体计算集群性能,可降低功耗和延迟 谷歌TPU集群的大规模采用将给OCS光交换机产业链公司带来机遇:谷歌TPU集群除谷歌自用外,已在Salesforce和Lightrick等客户大模型训练实现商用,带动OCS光交换机放量,OCS光交换机中的核心部件:MEMS阵列、发射/接收模组及其光学器件、光模块、环形器、850nm光源、光纤及连接器、铜缆等供应商均将受益 光连接是AI高速传输的必由之路,关注更广泛的光连接产业链:计算设备之间通过光模块和光纤光缆实现连接和数据格式转换,关注光模 块产业链(包括上游的光芯片、电芯片、光学器件以及光模块)和光纤光缆产业链 建议关注:1)OCS光交换机产业链核心标的: 环形器/波分复用器/光学器件:【腾景科技】 MEMS阵列代工:【赛微电子】 光模块:【中际旭创】 铜缆:长芯盛(【博创科技】收购) 连接器:【太辰光】 光源:【光迅科技】、【长光华芯】、纵慧芯光(【华西股份】投资) 2)广泛的光连接产业,建议关注: 光芯片:源杰科技、仕佳光子、长光华芯 光器件:天孚通信、腾景科技、太辰光、光库科技 光模块:中际旭创、新易盛、光迅科技、博创科技、联特科技、华工科技、立讯精密 光纤光缆:长飞光纤、亨通光电、中天科技、烽火通信 风险提示:大模型商业化进程不及预期、全球数据中心资本开支不及预期、全球电信运营商资本开支不及预期、国内外宏观经济下行风险、 相关公司国际供应链风险、相关数据更新不及时风险 2 目录 一、使用光交换机能够显著提升AI超算集群效率二、光交换机产业链增量明显,相关标的受益三、光是AI时代高速传输的必由之路 四、投资建议及风险提示 3 谷歌为何要发展OCS光交换机:提升计算集群性能支撑大模型 2023年12月7日,谷歌推出自身首个多模态大模型Gemini1.0,其中高性能版本GeminiUltra可对标GPT-4 2024年2月16日,谷歌Gemini模型Pro版迭代出1.5版本: 该模型在长语境理解方面取得突破,显著增加可处理信息量,持续运行多达100万个tokens,是迄今为止基础模型中最长的上下文窗口 Gemini1.5Pro可一次处理大量的信息——包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库 谷歌透露其在研究中还成功测试了多达1000万个tokens 2024年2月22日,谷歌推出新型开源模型系列“Gemma”:该开源模型基于Gemini研究和技术开发,与Gemini相比,Gemma展示了更高的效率和轻量化设计,同时免费提供全套模型权重,并明确允许商业使用 谷歌不断加速迭代大模型,大模型性能提升除了软件层面优化,更需强大算力支撑,算力一方面来自底层的芯片性能,另一方面则来自计算集群效率,为了高效地将多个计算芯片连接起来,谷歌在通用解决方案基础上,创造性地引入OCS光交换机(Palomar) 模型优化依靠: AI大模型竞争激烈 软件层面优化 如何提升算力? 计算集群性能 算力硬件支撑 芯片本身性能 谷歌优势不明显,不及英伟达 利用OCS提高数据交换速率 注:Palomar是谷歌对OCS光交换机的命名 4 来源:谷歌官网,中泰证券研究所 谷歌大模型Gemini快速迭代,亟需算力支撑 谷歌大模型的迭代动作加快: 2023年初推出聊天机器人Bard:2023年2月6日,谷歌宣布将推出一款聊天机器人Bard,2023年3月21日,谷歌向公众开放Bard的访问权限 2023年12月推出首个多模态大模型Gemini1.0:模型共分为Ultra、Pro、Nano三个版本,同时将聊天机器人Bard背后的模型从PaLM2换成了GeminiPro,其中高性能版本GeminiUltra可对标GPT-4,GeminiUltra在大型语言模型(LLM)研发中使用的32个广泛使用的学术基准中,有30个的性能超过了当前最先进的结果 2024年2月16日,Gemini1.0Pro迭代至1.5:在文本、代码、图像、音频和视频评估达到了与Gemini1.0Ultra相当的质量,但减少了计算资源 2024年2月22日,谷歌推出新型开源模型系列“Gemma” 表:Gemini1.0三版本对比 表:Gemini1.0Ultra、1.5Pro和GPT-4文本能力对比 表:Gemini1.0Ultra、1.5Pro和GPT-4图/音/视频能力对比 模型规模 模型描述 能力 基准越高越好 描述 Gemini1.0Ultra GPT-4 Gemini1.5Pro Ultra 参数最大,性能最强,可以在各种高度复杂的任务中提供最先进的性能,包括推理和多模态任务。由于采用Gemini架构,它可以在TPU加速器上高效地大规模运行 , 通用 MMLU:大规模多任务语言理解 57个学科的代表性问题 90.0% 86.4% 81.9% 推理 Big-BenchHard 需多步骤推理的各种挑战性任务 83.6% 83.1% 84.0% DROP 综合阅读 82.4 80.9 78.9 Pro 参数比Ultra版本少,在成本和延迟方面进行性能优化,现在已经应用于Google聊天机器人Bard HellaSwag 日常任务的综合推理 87.8% 95.3% 92.5% 数学 GSM8K 基本算术运算 94.4% 92.0% 91.7% MATH 挑战性数学难题 53.2% 52.9% 58.5% Nano 专门为移动设备训练的模型。针对不同内存的设备训练了两个版本,参数量分别是18亿(Nano1)和32.5亿(Nano2) 编程 HumanEval Python编码生成 74.4% 67.0% 71.9% Natural2code 无线Python编程生成 74.9% 73.9% 77.7% 5 能力 基准越高越好 描述 Gemini1.0Ultra GPT-4 Gemini1.5 图像 MMMU 多学科挑战性推理 59.4% 56.8% 58.5% VQAv2 自然图像理解 77.8% 77.2% 73.2% TextVQA 图像文本识别 82.3% 78.0% 73.5% DocVQA 文件理解 90.9% 88.4% 86.5% InfographicVQA 信息图理解 80.3% 75.1% 72.7% MathVista 视觉环境数学推理 53.0% 49.9% 52.1% 视频 VATEX 英文视频字幕 62.7 56.0 63.0 PerceptionTestMCQA 视频问题回答 54.7% 46.3% - 音频 CoVoST2 21种语音翻译 40.1 29.1 40.1 FLEURS 62种语音翻译(越低越好) 7.6% 17.6% 6.6% 来源:谷歌官网/谷歌技术文档,中泰证券研究所 谷歌自研TPU单芯片性能不足,提高计算集群效率是破局关键 谷歌2016年涉足ASIC芯片,截止目前已推出6代版本: 2015年谷歌首次发布了第一代TPU,正式涉足定制ASIC芯片,2017年发布第二代TPUv2,2018年发布第三代TPUv3,第四代TPUv4于2021 年5月正式推出,此次迭代间隔三年,并于2023年8月推出第五代TPUv5e,以及2023年12月6日最新发布TPUv5p 单芯片性能不足,提高计算集群效率(POD)是同英伟达竞争的关键:谷歌训练GeminiUltra所使用芯片为TPUv4、TPUv5e,性能无法与英伟达H100相比,TPUv5e峰值算力只有英伟达三年前发布的A100的六成,最新版本TPUv5p峰值算力不到H100的三成,且英伟达将于2024年推出更高性能的B100产品 表:谷歌历代TPU迭代情况表:谷歌近两代TPU与英伟达近两代产品性能对比 版本 TPUv1 TPUv2 TPUv3 TPUv4 TPUv5e TPUv5p 发布时间 2015 2017 2018 2021 2023 2023 制程 28nm 16nm 16nm 7nm 未公布 未公布 HBM内存(GB) - 16 32 32 16 95 HBM内存带宽(GB/S) 34 700 900 1200 819 2765 峰值算力(BF16,tflops) - 46 123 275 197 459 峰值算力(int8,tops) 92 - - - 394 918 单芯片ICI带宽(GB/S) - 1984 2624 2400 1600 4800 集群芯片数 - 256 1024 4096 256 8960 版本 H200SXM H10080GPCIe A10040GPCIe TPUv4 TPUv5e TPUv5p 发布时间 2023 2022 2020 2023 2023 2021 HBM内存(GB) 141 80 40 32 16 95 HBM内存带宽(GB/S) 4800 2000 1555 1200 820 2750 峰值算力(int8,tops) 3958 3200 624 - 394 918 注:单芯片ICI带宽,指的是板卡上每个TPU芯片之间信息传输速率 来源:谷歌/英伟达官网,TenLessonsFromThreeGenerationsShapedGoogle’sTPUv4i,中泰证券研究所6 既有网络架构使用电交换机,相比光交换机延迟和功耗较高 传统三层架构:包括接入层、汇聚层和核心层,对应位置均采用电交换机,一台下层交换机会通过两条链路与两台上层交换机互连,实际承载 流量的只有一条,其它上行链路,只用于备份,一定程度上造成了带宽的浪费,因此传统网络架构有网络带宽阻塞,上层带宽小于下层带宽和 叶脊拓扑结构:相比于传统网络的三层架构,叶脊网络进行了扁平化,变成了两层架构,叶交换机相当于传统三层架构中的接入交换机,脊交换机,相当于核心交换机 胖树架构和英伟达Infiniband架构: 传统三层架构存在网络带宽阻塞,在叶脊架构中,视各家具体方案不同,汇聚层或核心层也存在网络带宽阻塞,胖树架构下,自下而上不存在网络带宽阻塞,英伟达infiniband架构采用两层的胖树架构,即叶脊和胖树的结合 以上网络架构中,各层交换机均采用电交换机,与光交换机相比存在一些不足:首先耗电量较大,同时因为需要对数据包进行编解码导致延迟较高,另外在摩尔定律下,电交换机相关芯片迭代速率较快,电交换机2-3年迭代一版,频繁迭代下资本支出较大 图:传统三层网络架构和叶脊架构对比图:传统树形有阻塞三层架构和胖树架构 来源:物联网技术,中泰证券研究所7 TPUv4时期首次引入PalomarOCS提升计算集群性能 谷歌从TPUv2版本开始构建超级计算机集群:谷歌在2017年发布T