海外大语言模型进入新一轮大模型技术突破期,国内也纷纷突破GPT3.5水平 国内外大语言模型进入新一轮突破期。在海外,OpenAI推出GPT-4V,多模态能力加强,Google推出新一轮大语言模型Gemini,其中Ultra模型在文本处理的基准测试优于GPT4,在2月15日,Google新发布了1.5版本相较于1.0的性能继续提升;Meta近期公布正在架构算力研发LLaMA3并坚持开源;Anthropic旗下的Claude模型也进化到3版本,整体性能略超GPT-4,继续保持长文本性能和安全性特点突出,大模型Mixtral通过MOE结构较好的提质增效。同期在国内包括智谱、文心一言、科大讯飞和通义千问等的新版本都达到了赶超GPT3.5甚至部分能力接近GPT4的水平。 多模态生成大模型层出不穷,SORA引领新一轮大模型创新浪潮 多模态生成大模型进入技术突破期,OpenAI发布视频生成模型SORA,采用Diffusion Transformer结构,使用时空Latent patch表示视频和图像,或成为模拟现实的基础;近期Stability.ai开源Stable Video Diffusion模型,Google发布VideoPoet,视频生成新技术不断涌现;文生图模型也逐步迭代,Midjourney推出V6版本,图片生成能力更加优异;此外在数字人领域,微软推出GAIA大模型,阿里巴巴推出Animate Anyone,我们认为这为垂类商业场景奠定了技术基础。 应用与算力齐头并进,海外安迪比尔定律持续演绎 除去大模型侧的创新,海外应用端在GPTs的带领下诞生了大量应用,2个月内就有超过300万应用创建,OpenAI还为此引入生态体系;在算力端,海外大厂的硬件投资依然持续,Meta在2024年有望继续扩大GPU投资,微软、google和Amazon都预计资本性支出在有望在新的一年继续扩大以支撑AI的投入。 考虑到国内外在模型能力和算力支出上的亮眼表现,我们在此推荐AI应用与算力板块的机会,建议关注: 应用:(1)办公软件:金山办公、福昕软件、彩讯股份(通信团队覆盖) (2)多模态:万兴科技、美图公司(与海外团队联合覆盖)、虹软科技、光云科技 (3)B端应用:用友网络、金蝶国际、致远互联、泛微网络、鼎捷软件、汉得信息 (4)金融、教育、医疗:同花顺、恒生电子、新致软件、科大讯飞、视源股份(与电子组联合覆盖)、润达医疗 基础设施:神州数码、烽火通信、拓维信息、高新发展、海光信息、星环科技、寒武纪、景嘉微(与电子团队联合覆盖) 风险提示:国内大模型效果提升不及预期、国产算力供应不及预期、国内应用场景落地不及预期 1.海外大模型形成一超多强格局,OpenAI被加速追赶 1.1.Google Gemini:原生多模态且能力有望追平GPT-4 2023年12月7日,Google发布了新一款基于联合训练的原生多模态大模型Gemini。谷歌所发布的Gemini基于文本、图片、语音和视频联合训练,形成了跨模态的强大泛化能力,并在多个测试中有优秀表现。在Gemini的模型报告中,Gemini可以理解文档和手写笔迹,识别学生的推理步骤,并给出详细的解答,生成对应的Latex公式。 图1:Gemini采用原生多模态的模型结构 图2:Gemini可用来修订学生作业 Gemini模型分为3种规模,适用于从大型数据中心到移动设备的各种场景。Ultra是Gemini家族中最强大的模型,可以完成高度复杂的推理和多模态任务。Pro 在Ultra基础上 进行了优化和平衡, 仍然具有较强的推理性能和广泛的多模态能力。Nano专为设备部署设计,Nano-1、Nano-2参数量分别为1.8B和3.25B,分别针对不同内存的设备。Nano通过将模型参数转化为4位表示的形式,减小了模型大小,在提高部署效率的同时,维持了优良的性能。 图3:Gemini模型有三种等级的参数 GeminiUltra在文本处理基准测试优于GPT4,展现出一流的复杂推理能力。根据Google的测试,在综合知识(法律、生物和历史等)方面,GeminiUltra的MMLU指标达到90.04%,超过人类专家的89.8%,是首个超越人类的模型(GPT-4的MMLU为87.29%)。在数学领域,Gemini Ultra的GSM8K指标为94.4%,以往最高水平为GPT-4的92.0%。在更加复杂的数学领域中,GeminiUltra的MATH指标(中学竞赛水平)得分为53.2%,同样高于同期其他模型。在编程和复杂推理方面,编程模型AlphaCode 2基于GeminiPro,实现了在潜在程序空间大规模搜索。通过定制的过滤、聚类和排序机制,GeminiPro可以既生成候选代码,又产生奖励模型——用于选择出最合适的代码。与过去的AlphaCode相比,AlphaCode 2解决Codeforces分部中竞赛问题的数量,从原来的25%,提高到了43%,超过了85%的参赛者。此外,在机器翻译、多语言能力、长文本处理和人类偏好评估方面,Gemini同样展现了先进的性能。 图4:Gemini基准测试量化结果 作为原生多模态模型,Gemini展现了较强的多模态能力。Gemini可以在表格、图片、音频和视频中提取细节信息、空间布局和时间布局,并进行组合输出。例如,Gemini可生成用于重新排列子画面的matplotlib代码,这表明Gemini结合了多种能力,如①识别子图; ②逆推产生子图的代码;③从非直接的指示中,推理出子图新的排列顺序;④生成新的一组代码,重新生成、排列子图。 图5:Gemini模型结合了多种多模态能力 Gemini 1.5引入MoE,最新的1.5 pro以更少计算量比肩1.0 Ultra。Gemini 1.5 Pro是Gemini家族的最新模型,于2024年2月15日发布,是一种高效的多模态混合专家模型,能够从数百万个上下文标记中回忆并推理出精细的信息,其中包括多个长文档和几小时的视频和音频。该模型在跨模态的长期上下文检索任务上实现了近乎完美的召回率,并在长文档问答、长视频问答和长上下文自动语音识别方面提高了现有最佳表现。该模型基于谷歌对Transformer和MoE的最新研究,与之前的版本相比,其性能在多个维度都有显著的改进,1.5 Pro使用更少的计算实现了与1.0 Ultra相当的性能。 图6:Gemini 1.5pro拟人(humaneval)能力对比 图7:Gemini 1.5pro多模态能力对比 1.2.大模型Mixtral通过专家混合结构提质增效 MoE方法每次只取用部分参数,同处理规模下推理较快。为了提升模型质量,研究人员不断增大参数规模,大模型的训练难度和推理成本也随之增大。为了实现大模型的高效训练和推理,人们提出了多种方法,包括mamba架构、URIAL方法和MoE方法。MoE在面对多个领域的复杂问题时,先分析任务,将其分发给多个领域的专家,再汇总结论。由于MoE结构处理单个token的时候只取用部分参数,在保持同等处理规模的情况下,实现了较快的推理速度。 图8:混合专家层结构 Mixtral采用了多个70亿参数量的MoE组合,结果跑分优于多个主流模型。2023年12月11日,Mistral发布Mixtral 8x7B,该模型包括了8个“专家”模块,分别来自ArXiv、Github、PhilPapers、StackExchange、DM Mathematics、Gutenberg、PubMed Abstracts和Wikipedia (en)。Mixtral 8x7B的参数量仅为470亿。在综合基准测试中,Mixtral优于或等于LLaMA 2 70B和GPT-3.5。特别地,在数学、代码生成和多语言基准测试中,Mixtral显著优于LLaMA 2 70B。Mixtral针对指令微调的模型——Mixtral 8x7B-Instruct在人类基准测试中超过了GPT-3.5Turbo、Claude-2.1、Gemini Pro和LLaMA2 70B聊天模型。Mixtral 8x7B在多语言和长文本领域也有较好表现。 图9:Mixtral 8*7B标化测试结果 图10:LMSys排行榜(2023年12月22日) Mixtral 8x7B模型的推理计算与存储成本显著缩小,SMoEs更适用于并行运算。Mixtral 8x7B仅使用130亿活动参数,多项跑分高于700亿活动参数的LLaMA 2 70B。在不考虑内存成本和硬件利用率的情况下,活动参数越多,推理计算成本越大。因此Mixtral 8x7B在保持性能的同时,有效降低了推理成本。此外,在与存储成本相关的稀疏参数量方面,Mixtral 8x7B仅有470亿参数量,显著小于LLaMA 2 70B的参数量。设备利用率方面,在单时间步中,SMoEs层的路由机制引入了额外的运算量,用于在单个设备上加载数个“专家”模块。因此,使用SMoEs层更适用于并行运算,批量地处理token,可以提高设备利用率。 因此我们认为,在供给侧,Mixtral 8x7B所采用的方法以其小型化的特点,为边缘、终端部署大模型有力赋能;在需求侧,MixtralSMoEs会对硬件的并行运算能力提出新的要求。 图11:Mixtral 8x7B、LLaMA2测试结果对比 图12:Mixtral 8x7B与LLaMA2、GPT-3.5对比 1.3.OpenAI推出GPT-4V并持续保持领先 OpenAI在2023年9月发布的GPT-4V在处理交织的多模态互动方面体现了通用性和强大的处理能力。在输入模式方面,GPT-4V具备图片标记互动、识别无定式图文输入和接受案例引导的能力。在输出模式方面,强大的多模态处理能力使得GPT-4V可以完成事件划分、视频解读和情感解读任务。基于丰富的功能,GPT-4V衍生出了医学图像解读、具身代理和GUI导航等场景应用。还有许多潜在的功能等待使用者发掘。 图13:GPT-4V输入、输出模式和应用场景 在工业具身代理、GUI导航和多物体识别等领域,GPT-4V测试表现优于GeminiPro。在基础的图像识别任务中,GPT-4V和Gemini Pro均表现良好,在复杂的公式和表格信息处理方面存在差异。在图像推理和情绪理解方面,2个模型都展现了理解多种情绪的能力。 在IQ测试和多物体识别中,GPT-4V略强,但Gemini Pro在单物体识别方面表现更好,且单图像+文本识别能力更强。在工业应用领域,尤其是包含了具身智能代理和GUI导航方面,GPT-4V更具优势。GPT-4V和Gemini Pro均为能力优秀的多模态大模型,GPT-4V在某些领域略优于GeminiPro。 表1:GPT-4V与Gemini对比 1.4.Claude3震撼发布,能力略超GPT-4 Claude2.1显著减少幻觉率,处理更长文本可靠性更高。2023年11月21日,Anthropic推出Claude2.1。在开放式对话和复杂QA方面,Claude2.1幻觉率(Hallucination Rates)减少近50%,为企业提供了更高的可靠性。与同期模型相比,Claude2.1在“诚实度(Honesty)”测试中,可以输出不确定性结果(例如,“我不确定玻利维亚人口第五大城市是什么”),而非输出一个错误结果(例如,“玻利维亚人口第五大城市是蒙特罗”)。在文本处理方面,Claude2.1将200k长文本处理能力产品化,为业界首创。在处理可靠性要求高的文本(法律报告、财务报告和技术规范)时,Claude2.1错误答案减少了30%,错误引用率减少为原来的25%-33%。 图14:Claude2.1开放式Q&A精度提升 图15:Claude2.1减少长文本错误率 Claude3正式发布效果追平甚至超过GPT4,成本梯度明显。Claude3在3月4日发布,目前有3个型号Haiku, Sonnet和Opus,