您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:计算机行业投资策略周报:生成式AI产业趋势跟踪指南 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业投资策略周报:生成式AI产业趋势跟踪指南

信息技术2024-01-01财通证券有***
AI智能总结
查看更多
计算机行业投资策略周报:生成式AI产业趋势跟踪指南

基座模型是产业趋势的真正推动者。理解基座模型对于我们理解生成式AI的产业趋势至关重要,从产业跟踪的角度核心关注1)模型扩展性:关注SOTA模型的迭代方向、2)数据扩展性:关注LLMs小型化的进展、3)更好的模型架构:关注Transformer变体/替代品的相关讨论。 AI Agent是LLM-native应用的角逐方向。LLM-native应用开发的本质是激发LLM面向特定场景的慢思考能力,目前尚处于早期摸索阶段,需要重点跟踪1)AIAgent平台:关注以GPTs为代表的平台生态进展、2)交互方式转变:关注GUI+NUI对操作系统的创新。 多模态是短期边际变化最大的方向。多模态AI无论是底层技术还是商业化落地近期都有加速之势,重点关注1)技术收敛:关注统一多模态模型、2)创意工具:关注文生图/文生视频的产品迭代、3)具身智能:关注人形机器人的相关进展。 投资建议:AI大模型赋能下游应用,C端标准化工具类产品有望率先享受产业红利,建议关注金山办公、万兴科技、美图公司、同花顺、科大讯飞、福昕软件、合合信息(IPO)等。AI硬件创新潮可期,关注边缘端硬件公司传音控股、漫步者、石头科技、九号公司等,以及和芯片厂商合作紧密的赋能型公司如中科创达等,教育垂直领域可能成为落地的先行领域,建议关注佳发教育、鸿合科技等。算力是AI大模型产业化落地的必备环节,建议关注AI服务器相关厂商以及国产AI芯片厂商:海光信息、协创数据、神州数码、浪潮信息、虹软科技、中科曙光、高新发展、优刻得、紫光股份、寒武纪等。 风险提示:AI技术迭代不及预期的风险,商业化落地不及预期的风险,政策支持不及预期风险,全球宏观经济风险。 1「基座模型」是产业趋势的真正推动者 1.1模型扩展性:关注SOTA模型的迭代方向 模型规模化的天花板依然是摸着石头过河的实践科学。自GPT-4发布以来,我们再也没有看到LLMs参数量的大幅提升。近期关于MoE架构的讨论又在变多,不可否认MoE架构虽然能带来模型性能的边际提升(如*GPT-4、 *Gemini、Mixtral 8x7B),但MoE并不能带来数量级跃迁的有效扩展(解决了整体降本的问题,但没有解决天花板的问题,且对端侧显存占用不友好),行业对大语言模型(LLMs)参数扩展性的天花板的依然存疑。 Gemini实则是对Scaling law是否还成立的再一次回应。在GPT-5发布前,Gemini是唯一同级别参数量的GPT-4对标品,其扩展的方式是通过增加语言文本外的其他模态数据(图片、视频、音频)去扩展模型的参数量/数据量。因 此,2024年初上线的Gemini Ultra性能提升幅度对Scaling law是否继续成立的判断至关重要。 海外基座模型的角逐在2024年势必是开始缩圈。除了OpenAI、Google外,还需关注:Anthropic(创始人同源于OpenAI,已推出对标GPT-4-Turbo的 「Claude-2.1-200k」,公司最新估值或已超过180亿美元,Amazon已投资40亿美元);Mistral(欧洲开源领军团队,创世人在法国国家广播电台已宣布2024年将开源GPT-4级别的MoE模型);AWS(拥有和Azure同级的算力,正在训练一个名为「Olympus」参数量是GPT-4两倍的模型);xAI(马斯克亲自下场,「Grok」测试版本已向X Premium+订阅者正式开放,未来有望将其应用于智能车和人形机器人两个关键场景);Apple(拥有终端海量场景,近期上线了为M系列芯片定制的神经网络框架「MLX」、发表了一篇减少LLMs内存占用方法的论文、开源了一个多模态模型「Ferret」、正在协商向新闻出版公司购买语料)。 图1.Google推出原生多模态大模型Gemini 图2.Mixtral 8x7B通过MoE架构获得了可观的性能提升 图3.苹果公司联合哥伦比亚大学推出多模态大模型Ferret 1.2数据扩展性:关注LLMs小型化的进展 过去半年小模型的进展速度远超参数量最大的SOTA。以Mistral 7B为代表的小模型率先打破了此前DeepMind提出的Chinchilla scaling law中对模型参数与数据量的量化最优关系,也对“只有大模型能够涌现”的认知提出了挑战;随后,微软研究院分享了一种新方法Orca(通过使用GPT-4的推理轨迹来构建指令数据集),并推出了性能卓越的Phi-2(使用超高质量的“教科书级”数据预训练)。 LLMs小型化直接带来推理成本的大幅降低。LLMs的参数量与推理算力消耗/内存占用成线性关系,用更小的参数量的LLMs达到过去更大的模型才能达到的性能,对LLMs的商业化落地具有关键意义。在合成数据、RLAIF、模型蒸馏、参数量化等新老方式下,以Gemini Nano为代表的3B及其以下的小模型能够达到何等性能高度,对判断AI PC/手机等终端AI的渗透节奏有重要的前瞻意义。 未来基座模型的竞争格局更倾向于赢家通吃。大模型是小模型的生成器,这或许是属于LLMs的数据飞轮。模型小型化背后成功的原因使我们对未来格局的判断更加清晰,具备SOTA能力的模型厂商在能力和成本上都将具备竞争优势。 图4.GeminiNano最小能提供1.8B版本的模型 图5.Orca模型通过GPT-4生成的高质量逻辑推导数据训练而得 图6.RLAIF与RLHF原理对比 1.3更好的模型架构:关注Transformer变体/替代品的相关讨论 对Transformer进行改造以达到更快的推理。标准自注意力机制所带来的二次代价时间复杂度,以及当前加速芯片的访存瓶颈,使得LLMs支持的上下文长度受到制约。通过更优的位置编码(如ALiBi、RoPE)、注意力机制的改造(如 Sparse Attention、Grouped-Query Attention、Sliding-Window Attention),其他提升硬件效率的创新(如Flash Attention、KV Cache),业界逐步提升了模型的长文本能力和推理效率。 寻找到Transformer的替代品是一件长期工程。近期学术界提出了几种具有前景的状态空间模型,这些模型可以通过潜在空间将输入映射到输出,并可以根据任务需求表达为RNN或CNN。例如,Mamba(一种增加了选择机制的状态空间模型)、Striped Hyena(一种具有快速卷积核的状态空间模型),业内正在对上述模型的实际可扩展性(Scalability)进行验证。除此之外,RWKV作为一种新型的RNN也在被开源社区持续探索,是降低推理算力的潜在替补。 图7.大语言模型的“不可能三角” 图8.FlashAttention原理图 2「AI Agent」是LLM-native应用的角逐方向 2.1LLM-native应用:激发LLM面向特定场景的慢思考能力 大模型应用仍在早期的探索阶段。截至目前,2C领域真正能称为高流量应用的可能只有ChatGPT和Chatacter.AI。根据TheInformation报道,OpenAI最新的的年化收入已达到16亿美元,高于10月中旬预期的13亿美元。2B领域微软M365 Copilot推广速度平缓,GitHub Copilot作为最受欢迎的编程助手工具对用户实际生产力的提升依然有限,我们认为当前的AI原生应用仍处于早期探索的阶段。 领域知识激发模型的慢思考能力。LLM-native应用的开发本质可以理解通过提示工程激发LLM面向特定场景的慢思考能力。这种慢思考能力能够与业务流程进行封装,形成知识和工程的结合,但也对产品经理、开发者、下游客户共同提出了更高的门槛。 模型即应用在现阶段依然成立。一方面,模型能力和应用的边界高度耦合。另一方面,模型的推理成本很大程度限制了应用的大范围推广。考虑到应用依然呈现冷启动的特征,伴随模型能力的边际提升(如慢思考能力、工具使用能力、更长的上下文长度),幻觉的减少(如通过RAG辅助生成、更好的模型微调)以及推理降本的持续推进,LLM-native应用可能在2024H2会更接近那个临界点。 图9.基座模型厂商正在加速对上层应用的开拓 2.2AIAgent平台:关注以GPTs为代表的平台生态进展 关注GPTs的后续更新。当前的AI Agent,可类比人形机器人,其在短期的实现策略、成本等诸多方面都远未成熟,但其通用性又不可否认是一个易于具象化的终局形态。OpenAI率先推出了GPTs,并将在2024年初上线GPT Store,集齐了高流量入口、低创作门槛和全商业闭环三大构建生态的核心要素,后续公司在GPTs上的迭代创新将具有指向意义。 Agent-as-a-Service的商业模式仍需观察。在OpenAI推出其GPTs这一UGC的Agent平台后,国内的字节跳动、百度、昆仑万维、面壁智能等模型厂商也陆续推出自己的相关产品,其功能都类似于LangFlow这样的DAG可视化流程编排平台。AI Agent是否能成为Excel这样一个成功的提供标准化产品的平台,还是吸取过去低代码平台的失败教训只能提供定制化的服务,是现在我们需要持续关注和思考的问题。 图10.ChatGPT团队给开发者们的一封信 2.3交互方式转变:关注GUI+NUI对操作系统的创新 操作系统或是短期率先落地的AI Agent场景。OpenAI的联合创始人之一Andrej Karpathy认为可将LLM理解为一种新兴操作系统的内核进程(kernal process)。 关注2024年或将发布的桌面操作系统Windows12、以及LLMs在手机、浏览器、可穿戴设备上的功能应用。 LLMs可带来人机交互体验的革新。NUI(自然用户界面)擅长处理不确定性、复杂性和新概念,通过多轮对话帮助用户理解和接受新的信息。而GUI(图像用户界面)则在概念变得普遍和确定之后发挥作用,通过可视化界面提高用户体验和操作效率; 图11.LLM驱动的新型操作系统 3「多模态」是短期边际变化最大的方向 3.1技术收敛:关注统一多模态模型 多模态的技术路线有向语言模型收敛的可能。在理解任务,当前的多模态大模型(MLLMs)在视觉模态展现出的“智能”更多还是来自大语言模型(LLMs)对泛化能力的突破,我们将其称之为text-based的MLLMs。在生成任务,以图片/视频生成为代表的模型路线依然以扩散模式(Diffusion model)为主。但我们现在看到,基于自回归模型(Autoregressive model)的统一多模态MLLM可能正在出现(如Google近期发布的VideoPoet),这或将对现有格局产生改变。 图12.Google发布了视频生成领域的统一多模态大模型VideoPoet 图13.VideoPoet模型原理图 3.2创意工具:关注文生图/文生视频的产品迭代 创意工具仍然是最具有落地可行性的应用领域。芯片将计算的边际成本降到了零,互联网将分发的边际成本降到了零,现在AIGC实际上将创作的边际成本降到零。创意类工具这一“专注于创造力比正确性更重要”的领域能够很好的在现阶段的模型能力下扬长避短,将创作的边际成本大幅下降,取得商业上的落地。 多模态领域正在诞生更好用的创意工具。我们观察到近几个月来以图片/视频生成为代表的生成类模型技术进步迅速,无论是在模型的指令跟随能力(如Dalle- 3、Pika 1.0),还是生成作品的质量(如Midjourney V6),亦或是用户与模型的交互体验(如SDXL Turbo),都有了肉眼可见的快速提升。 图14.Midjourney V6生成雨中的马斯克 3.3具身智能:关注人形机器人的相关进展 Robotics+LLMs一直是多模态中的重要命题。一方面机器人是多模态的天然应用场景,另一方面动作(motion)是当前学术界正在努力攻克的另一重要模态(如Tesla Optimus、Nvidia的VIMA、Deepmind的RT-X系列、字节近