终端智能,人工智能AI的新革命 人工智能系列报告(一) 核心结论 证券研究报告 行业专题报告|计算机 2024年03月05日 行业评级超配 前次评级超配 基于成本、能耗、可靠性和时延、隐私、个性化服务等考虑,端云混合的AI 才是AI的未来,高通认为终端AI能力是赋能混合AI并让生成式AI实现全球规模化扩展的关键。 百亿参数开源MoE大模型Mixtral8x7B再掀热潮,性能超LLaMA2-70B,对标GPT-3.5。MoE(混合专家模型)通过将任务分配给对应的一组专家模型来提高模型的性能和效率。Mixtral8x7B的专家数量为8个,总参数量为470亿 但在推理过程中仅调用两个专家即只调用130亿参数。 我们认为MoE或为现阶段大模型平衡成本、延迟以及性能的最优选择,叠加开源模型本身高灵活性、安全性和高性价比特点,MistralAI的开源MoE轻量化模型可能是未来最适合部署于终端的模型。目前,高通、联发科、英特尔、AMD等龙头芯片厂商都推出了终端AI芯片,能跑十亿甚至百亿量级大模型。后续类Mixtral8x7B的SMoE模型在高性能基础上继续压缩的话,很大几率可以装进终端设备实现本地运行。SMoE轻量模型大幅降低了训练的门槛和成本, 且由于在推理时只激活少部分参数,保持较高性能的同时能适应不同的计算环境,包括计算能力有限的终端,降低推理成本且将催生更多大模型相关应用。2024年有望成为终端智能元年,看好拥有终端资源、深耕场景、掌握行业 knowhow、积累了海量数据的B端和C端公司。1)未来每台终端都将是AI 评级变动维持 近一年行业走势 计算机沪深300 17% 9% 1% -7% -15% -23% -31% -39% 2023-032023-072023-11 相对表现 1个月 3个月 12个月 计算机 35.45 -8.84 -17.94 沪深300 11.41 5.05 -13.68 分析师 郑宏达S0800524020001 13918906471 zhenghongda@research.xbmail.com.cn 终端,包括AIPC、AI手机、AIMR等,这将带来全新的用户体验。2)AIPC 有望成为“AI+”终端中最先爆发的。英特尔预计全球今年将交付4000万台AIPC,明年将交付6000万台,预估2025年底AIPC在全球PC市场中占比将超过20%;微软AIPC预计于今年亮相。3)随着大模型逐步发展,尤其是多模态能力增强,更广泛的AIoT设备也迎来了更新换代的重要机遇。3)B端私有化部署也是AI应用的重要方向,关注边缘侧AI。4)鸿蒙:提供顶级流畅连接体验,大模型有望赋能奔赴万物智联下一站。 人形机器人是大模型应用的重要硬件载体,也是终端智能发展的核心方向。1) 人形机器人是目前具身智能最好的形态,因为它们有着与人相似的外观设计,能更好地适应周围的环境和基础设施。2)端云混合的“大脑”让机器人既能处理复杂和高强度的计算任务,又能实时进行信息处理和分析。 建议关注:1)算力基础:中科曙光、神州数码、浪潮信息、高新发展;2)AIPC:华勤技术、龙旗科技、联想集团、星环科技-U、海光信息;3)终端鸿蒙润和软件、九联科技、东方中科、软通动力、中国软件国际、拓维信息、初灵 信息;4)拥有丰富的终端资源:海康威视、大华股份、科大讯飞、萤石网络、漫步者;5)B端应用:北路智控、智洋创新、云涌科技、商汤-W、云从科技-UW 风险提示:AIGC技术突破不及预期、终端智能需求不及预期、宏观经济增长不及预期、国际环境变化。 相关研究 计算机:AI新硬件的崛起—计算机行业2024 年3月研究观点2024-03-03 计算机:从OpenAI论文看AI算力的重要性 —AIGC行业跟踪2024-02-27 计算机:继续围绕人工智能投资主线—计算机行业周观点第2期2024-02-25 索引 内容目录 一、端云混合的AI是AI的未来4 二、高性能小模型比肩GPT-3.5,终端智能前景可期4 2.1关注MoE——LLM头部玩家们正在实践的重要技术路线4 2.2Mixtral8x7B:低成本SMoE小模型+开源,更务实的GenAI商业化路线6 2.3端侧AI芯片已能支持百亿参数模型本地运行,看好轻量SMoE模型终端部署前景8 2.3.1高通:端侧AI芯片领导者,提供软硬件全栈优化8 2.3.2全球芯片巨头:密集发布新品,抢抓终端侧AI机遇11 三、看好拥有终端资源的B端和C端公司13 3.1各类“AI+”终端产品陆续发布,新周期大幕拉开13 3.2AIPC有望成为“AI+”终端中最先爆发的14 3.3大模型有望驱动AIoT硬件升级,关注深耕场景、具有终端资源的公司15 3.4私有化部署的B端场景也是AI应用的重要方向,关注边缘侧AI16 3.5鸿蒙:提供顶级的流畅连接体验,大模型有望赋能奔赴万物智联下一站16 四、人形机器人:大模型应用的重要硬件载体,终端智能发展的核心方向17 4.1具备思维链及零样本学习特性,大模型开启机器人智能化新篇章18 4.2端云融合AI为机器人打造智能高效“大脑”19 4.3产业催化不断,人形机器人有望迎来奇点时刻19 五、建议关注20 六、风险提示20 图表目录 图1:AI处理的重心正在向边缘转移4 图2:MoE架构示意图5 图3:MoE两个关键部分5 图4:Gemini1.5领先的上下文窗口长度6 图5:Mistral8x7B与LLama性能对比6 图6:Mistral8x7B性能可对标GPT-3.57 图7:LMSys排行榜上Mixtral8x7B–Instruct得分较高7 图8:Mistral8x7B与Llama“规模-效率”对比图8 图9:Hexagon处理器的迭代更新过程9 图10:高通AI软件栈9 图11:高通AI研究采用整体AI模型效率研究方法9 图12:高通全球终端芯片布局10 图13:高通骁龙XElite概览10 图14:高通骁龙8Gen3概览10 图15:高通骁龙XR2Gen2概览11 图16:高通骁龙AR1Gen1概览11 图17:高通骁龙XR2+Gen2概览11 图18:第一代高通S7和S7Pro音频平台概览11 图19:天玑9300端侧AI性能概览12 图20:锐龙8040G的CPU+NPU+GPU架构12 图21:锐龙8040G在生成式AI方面性能提升12 图22:MeteorLake在AI方面性能优异12 图23:MeteorLake支持Llama-7B端侧无网运行12 图24:英特尔宣布启动“AIPC加速计划”13 图25:PC优势与大模型本地部署时的需求天然匹配14 图26:AI技术在安防领域的变革——从感知智能到决策智能15 图27:认知智能的两个研究方向及对应的安防应用15 图28:“1+8+N”全场景战略16 图29:鸿蒙万物智联愿景17 图30:Figure01制作咖啡18 图31:特斯拉OptimusGen2叠衣服18 图32:结合思维链推理,RT-2驱动机械臂执行“在现场找能钉钉子的物体”的任务18 图33:VoxPoser系统驱动下机械臂可以完成没见过的任务,可操作的物体也是开放的19 图34:智元“具身智脑”EI-Brain框架19 一、端云混合的AI是AI的未来 基于成本、能耗、可靠性和时延、隐私和安全、个性化服务等考虑,端云融合的AI才是AI的未来,高通认为终端侧AI能力是赋能混合AI并让生成式AI实现全球规模化扩展的关键。高通曾发布白皮书称混合AI是AI的未来。只有云和终端都能承担AI处理的任 务,才能实现AI的规模化扩展并发挥其最大潜能——正如传统计算从大型主机和瘦客户端演变为当前云端和终端相结合的模式。混合AI指终端和云协同,根据不同场景和需求分配AI计算的工作负载,以提供更好的体验并高效利用资源。在一些场景下,AI处理将以终端为中心,必要时向云端分求助;而在以云为中心的场景下,终端将根据自身能力,在可能的情况下从云端分担部分AI工作负载。 图1:AI处理的重心正在向边缘转移 资料来源:高通《混合AI是AI的未来》白皮书、西部证券研发中心 二、高性能小模型比肩GPT-3.5,终端智能前景可期 百亿参数开源MoE大模型Mixtral8x7B再掀热潮,性能超LLaMA2-70B,对标GPT-3.5。Mixtral8x7B每个token可以访问470亿参数,但推理过程中仅使用130亿参数,低成本优势显著。我们认为MoE或为现阶段大模型平衡成本、延迟以及性能的最优选择,叠加开源模型本身高灵活性、安全性和高性价比特点,MistralAI的开源MoE轻量化模型可能是未来最适合部署于终端的模型。 2.1关注MoE——LLM头部玩家们正在实践的重要技术路线 MoE(MixtureofExperts,混合专家模型)是一种创新的深度学习架构,旨在通过将任务分配给对应一组专家模型来提高模型的性能和效率。MoE架构最早由1991年的论文 《AdaptiveMixtureofLocalExperts》提出,其核心思想在于利用多个小型的专家网络,每个网络专注于处理输入数据的不同部分或特征;然后通过一个“门控”机制来被选择性地激活,该机制基于输入数据的特性来决定哪些专家网络应该参与到当前任务的预测中。 图2:MoE架构示意图 资料来源:《MixtralofExperts》、西部证券研发中心 MoE基于Transformer架构,主要由稀疏MoE层和门控网络这两个关键部分组成。1)稀疏MoE层:取代传统transformer模型中的前馈网络层(FFN),MoE层中每个专家本 身也是一个独立的神经网络;2)门控网络或路由:决定输入的token激活哪些专家。例如在下图中,“More”被发送到第二个专家,而“Parameters”被发送到第一个专家,在某些情况下单个token甚至可能被发送至多位专家。最后,所有专家的输出会被聚合(aggregated)起来,形成最终的模型输出。 图3:MoE两个关键部分 资料来源:《SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity》、西部证券研发中心 GPT-4或已采用MoE架构。根据semianalysis文章,GPT-4参数规模是GPT-3的10倍以上。GPT-3的参数量约1750亿,semianalysis推测GPT-4约1.8万亿个参数,这些参数分布在120个transformer层上。GPT-4中有16个MLP.2(Multi-LayerPerceptron,多 层感知机)类型的专家,每个专家网络的参数大约为1110亿个,每次前向传递中会调用其中的两个专家模型;此外,还有550亿个attention共享参数。这样推理时,每生成一个token仅需约2800亿个参数和560TFLOP,而相比之下,如果使用稠密模型,每次生成一个token需要约18000亿个参数和3700TFLOP。 谷歌Gemini1.5采用MoE架构,可一次性、高效处理大量信息。2024年2月15日,谷歌发布Gemini1.5,宣布将上下文窗口长度扩展到100万个tokens,也就是说Gemini1.5可以一次性处理1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。谷歌甚至在研究中成功测试了多达1000万个tokens。 图4:Gemini1.5领先的上下文窗口长度 资料来源:机器之心公众号、西部证券研发中心 2.2Mixtral8x7B:低成本SMoE小模型+开源,更务实的GenAI商业化路线MistralAI横空出世打造超强轻量化模型Mistral7B。MistralAI是一家法国AI初创公司,也是目前欧洲最强的LLM公司之一,团队成员中7人来自Facebook(4位参与Llama研 发),3人来自HuggingFace,2人来Deepmind。20