热门搜索：

大模型生态加速突破，2024年应用元年有望到来

信息技术2024-03-09缪欣君天风证券张***

AI智能总结

行业报告 | 行业深度研究本报告主要关注计算机行业。大模型生态加速突破，2024年应用元年有望到来。海外大语言模型进入新一轮大模型技术突破期，国内也纷纷突破GPT3.5水平。多模态生成大模型层出不穷，SORA引领新一轮大模型创新浪潮。应用与算力齐头并进，海外安迪比尔定律持续演绎。建议关注应用和基础设施板块的机会。

海外大语言模型进入新一轮大模型技术突破期，国内也纷纷突破GPT3.5水平国内外大语言模型进入新一轮突破期。在海外，OpenAI推出GPT-4V，多模态能力加强，Google推出新一轮大语言模型Gemini，其中Ultra模型在文本处理的基准测试优于GPT4，在2月15日，Google新发布了1.5版本相较于1.0的性能继续提升；Meta近期公布正在架构算力研发LLaMA3并坚持开源；Anthropic旗下的Claude模型也进化到3版本，整体性能略超GPT-4，继续保持长文本性能和安全性特点突出，大模型Mixtral通过MOE结构较好的提质增效。同期在国内包括智谱、文心一言、科大讯飞和通义千问等的新版本都达到了赶超GPT3.5甚至部分能力接近GPT4的水平。多模态生成大模型层出不穷，SORA引领新一轮大模型创新浪潮多模态生成大模型进入技术突破期，OpenAI发布视频生成模型SORA,采用Diffusion Transformer结构，使用时空Latent patch表示视频和图像，或成为模拟现实的基础；近期Stability.ai开源Stable Video Diffusion模型，Google发布VideoPoet，视频生成新技术不断涌现；文生图模型也逐步迭代，Midjourney推出V6版本，图片生成能力更加优异；此外在数字人领域，微软推出GAIA大模型，阿里巴巴推出Animate Anyone，我们认为这为垂类商业场景奠定了技术基础。应用与算力齐头并进，海外安迪比尔定律持续演绎除去大模型侧的创新，海外应用端在GPTs的带领下诞生了大量应用，2个月内就有超过300万应用创建，OpenAI还为此引入生态体系；在算力端，海外大厂的硬件投资依然持续，Meta在2024年有望继续扩大GPU投资，微软、google和Amazon都预计资本性支出在有望在新的一年继续扩大以支撑AI的投入。考虑到国内外在模型能力和算力支出上的亮眼表现，我们在此推荐AI应用与算力板块的机会，建议关注：应用：（1）办公软件：金山办公、福昕软件、彩讯股份（通信团队覆盖）（2）多模态：万兴科技、美图公司（与海外团队联合覆盖）、虹软科技、光云科技（3）B端应用：用友网络、金蝶国际、致远互联、泛微网络、鼎捷软件、汉得信息（4）金融、教育、医疗：同花顺、恒生电子、新致软件、科大讯飞、视源股份（与电子组联合覆盖）、润达医疗基础设施：神州数码、烽火通信、拓维信息、高新发展、海光信息、星环科技、寒武纪、景嘉微（与电子团队联合覆盖）风险提示：国内大模型效果提升不及预期、国产算力供应不及预期、国内应用场景落地不及预期 1.海外大模型形成一超多强格局，OpenAI被加速追赶 1.1.Google Gemini：原生多模态且能力有望追平GPT-4 2023年12月7日，Google发布了新一款基于联合训练的原生多模态大模型Gemini。谷歌所发布的Gemini基于文本、图片、语音和视频联合训练，形成了跨模态的强大泛化能力，并在多个测试中有优秀表现。在Gemini的模型报告中，Gemini可以理解文档和手写笔迹，识别学生的推理步骤，并给出详细的解答，生成对应的Latex公式。图1：Gemini采用原生多模态的模型结构图2：Gemini可用来修订学生作业 Gemini模型分为3种规模，适用于从大型数据中心到移动设备的各种场景。Ultra是Gemini家族中最强大的模型，可以完成高度复杂的推理和多模态任务。Pro 在Ultra基础上进行了优化和平衡，仍然具有较强的推理性能和广泛的多模态能力。Nano专为设备部署设计，Nano-1、Nano-2参数量分别为1.8B和3.25B，分别针对不同内存的设备。Nano通过将模型参数转化为4位表示的形式，减小了模型大小，在提高部署效率的同时，维持了优良的性能。图3：Gemini模型有三种等级的参数 GeminiUltra在文本处理基准测试优于GPT4，展现出一流的复杂推理能力。根据Google的测试，在综合知识（法律、生物和历史等）方面，GeminiUltra的MMLU指标达到90.04%，超过人类专家的89.8%，是首个超越人类的模型（GPT-4的MMLU为87.29%）。在数学领域，Gemini Ultra的GSM8K指标为94.4%，以往最高水平为GPT-4的92.0%。在更加复杂的数学领域中，GeminiUltra的MATH指标（中学竞赛水平）得分为53.2%，同样高于同期其他模型。在编程和复杂推理方面，编程模型AlphaCode 2基于GeminiPro，实现了在潜在程序空间大规模搜索。通过定制的过滤、聚类和排序机制，GeminiPro可以既生成候选代码，又产生奖励模型——用于选择出最合适的代码。与过去的AlphaCode相比，AlphaCode 2解决Codeforces分部中竞赛问题的数量，从原来的25%，提高到了43%，超过了85%的参赛者。此外，在机器翻译、多语言能力、长文本处理和人类偏好评估方面，Gemini同样展现了先进的性能。图4：Gemini基准测试量化结果作为原生多模态模型，Gemini展现了较强的多模态能力。Gemini可以在表格、图片、音频和视频中提取细节信息、空间布局和时间布局，并进行组合输出。例如，Gemini可生成用于重新排列子画面的matplotlib代码，这表明Gemini结合了多种能力，如①识别子图； ②逆推产生子图的代码；③从非直接的指示中，推理出子图新的排列顺序；④生成新的一组代码，重新生成、排列子图。图5：Gemini模型结合了多种多模态能力 Gemini 1.5引入MoE，最新的1.5 pro以更少计算量比肩1.0 Ultra。Gemini 1.5 Pro是Gemini家族的最新模型，于2024年2月15日发布，是一种高效的多模态混合专家模型，能够从数百万个上下文标记中回忆并推理出精细的信息，其中包括多个长文档和几小时的视频和音频。该模型在跨模态的长期上下文检索任务上实现了近乎完美的召回率，并在长文档问答、长视频问答和长上下文自动语音识别方面提高了现有最佳表现。该模型基于谷歌对Transformer和MoE的最新研究，与之前的版本相比，其性能在多个维度都有显著的改进，1.5 Pro使用更少的计算实现了与1.0 Ultra相当的性能。图6：Gemini 1.5pro拟人（humaneval）能力对比图7：Gemini 1.5pro多模态能力对比 1.2.大模型Mixtral通过专家混合结构提质增效 MoE方法每次只取用部分参数，同处理规模下推理较快。为了提升模型质量，研究人员不断增大参数规模，大模型的训练难度和推理成本也随之增大。为了实现大模型的高效训练和推理，人们提出了多种方法，包括mamba架构、URIAL方法和MoE方法。MoE在面对多个领域的复杂问题时，先分析任务，将其分发给多个领域的专家，再汇总结论。由于MoE结构处理单个token的时候只取用部分参数，在保持同等处理规模的情况下，实现了较快的推理速度。图8：混合专家层结构 Mixtral采用了多个70亿参数量的MoE组合，结果跑分优于多个主流模型。2023年12月11日，Mistral发布Mixtral 8x7B，该模型包括了8个“专家”模块，分别来自ArXiv、Github、PhilPapers、StackExchange、DM Mathematics、Gutenberg、PubMed Abstracts和Wikipedia (en)。Mixtral 8x7B的参数量仅为470亿。在综合基准测试中，Mixtral优于或等于LLaMA 2 70B和GPT-3.5。特别地，在数学、代码生成和多语言基准测试中，Mixtral显著优于LLaMA 2 70B。Mixtral针对指令微调的模型——Mixtral 8x7B-Instruct在人类基准测试中超过了GPT-3.5Turbo、Claude-2.1、Gemini Pro和LLaMA2 70B聊天模型。Mixtral 8x7B在多语言和长文本领域也有较好表现。图9：Mixtral 8*7B标化测试结果图10：LMSys排行榜（2023年12月22日） Mixtral 8x7B模型的推理计算与存储成本显著缩小，SMoEs更适用于并行运算。Mixtral 8x7B仅使用130亿活动参数，多项跑分高于700亿活动参数的LLaMA 2 70B。在不考虑内存成本和硬件利用率的情况下，活动参数越多，推理计算成本越大。因此Mixtral 8x7B在保持性能的同时，有效降低了推理成本。此外，在与存储成本相关的稀疏参数量方面，Mixtral 8x7B仅有470亿参数量，显著小于LLaMA 2 70B的参数量。设备利用率方面，在单时间步中，SMoEs层的路由机制引入了额外的运算量，用于在单个设备上加载数个“专家”模块。因此，使用SMoEs层更适用于并行运算，批量地处理token，可以提高设备利用率。因此我们认为，在供给侧，Mixtral 8x7B所采用的方法以其小型化的特点，为边缘、终端部署大模型有力赋能；在需求侧，MixtralSMoEs会对硬件的并行运算能力提出新的要求。图11：Mixtral 8x7B、LLaMA2测试结果对比图12：Mixtral 8x7B与LLaMA2、GPT-3.5对比 1.3.OpenAI推出GPT-4V并持续保持领先 OpenAI在2023年9月发布的GPT-4V在处理交织的多模态互动方面体现了通用性和强大的处理能力。在输入模式方面，GPT-4V具备图片标记互动、识别无定式图文输入和接受案例引导的能力。在输出模式方面，强大的多模态处理能力使得GPT-4V可以完成事件划分、视频解读和情感解读任务。基于丰富的功能，GPT-4V衍生出了医学图像解读、具身代理和GUI导航等场景应用。还有许多潜在的功能等待使用者发掘。图13：GPT-4V输入、输出模式和应用场景在工业具身代理、GUI导航和多物体识别等领域，GPT-4V测试表现优于GeminiPro。在基础的图像识别任务中，GPT-4V和Gemini Pro均表现良好，在复杂的公式和表格信息处理方面存在差异。在图像推理和情绪理解方面，2个模型都展现了理解多种情绪的能力。在IQ测试和多物体识别中，GPT-4V略强，但Gemini Pro在单物体识别方面表现更好，且单图像+文本识别能力更强。在工业应用领域，尤其是包含了具身智能代理和GUI导航方面，GPT-4V更具优势。GPT-4V和Gemini Pro均为能力优秀的多模态大模型，GPT-4V在某些领域略优于GeminiPro。表1：GPT-4V与Gemini对比 1.4.Claude3震撼发布，能力略超GPT-4 Claude2.1显著减少幻觉率，处理更长文本可靠性更高。2023年11月21日，Anthropic推出Claude2.1。在开放式对话和复杂QA方面，Claude2.1幻觉率（Hallucination Rates）减少近50%，为企业提供了更高的可靠性。与同期模型相比，Claude2.1在“诚实度（Honesty）”测试中，可以输出不确定性结果（例如，“我不确定玻利维亚人口第五大城市是什么”），而非输出一个错误结果（例如，“玻利维亚人口第五大城市是蒙特罗”）。在文本处理方面，Claude2.1将200k长文本处理能力产品化，为业界首创。在处理可靠性要求高的文本（法律报告、财务报告和技术规范）时，Claude2.1错误答案减少了30%，错误引用率减少为原来的25%-33%。图14：Claude2.1开放式Q&A精度提升图15：Claude2.1减少长文本错误率 Claude3正式发布效果追平甚至超过GPT4，成本梯度明显。Claude3在3月4日发布，目前有3个型号Haiku, Sonnet和Opus，

点击免费查看完整报告

你可能感兴趣

大模型生态加速突破，2024年应用元年有望到来

你可能感兴趣

【电报解读】该细分领域是AIGC浪潮的核心之一，大模型商业化元年加速其商业变现期提前到来，这家公司旗下产品入驻新一代平板硬件Mate Pad Pro，多款产品已适配鸿蒙操作系统-20240311

计算机行业点评：GPT-4o性能与实用性双突破，有望加速大模型应用落地

4o性能与实用性双突破，有望加速大模型应用落地

[盘中宝]马斯克旗下大模型产品再迎新进展，Grok V1·5或将两周后发布，机构称2024年或是AI应用真正元年，这家企业产品助力多个行业Al场景落地-20240222

国盾量子2024年三季报点评：技术突破持续赋能，量子通信应用有望加速