您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[德邦证券]:从技术路径,纵观国产大模型逆袭之路 - 发现报告
当前位置:首页/行业研究/报告详情/

从技术路径,纵观国产大模型逆袭之路

信息技术2024-07-04陈涵泊、王思德邦证券惊***
从技术路径,纵观国产大模型逆袭之路

证券研究报告|行业深度 计算机 行业投资评级|优于大市(维持) 2024年7月4日 从技术路径,纵观国产大模型逆袭之路 证券分析师 姓名:陈涵泊 资格编号:S0120524040004 邮箱:chenhb3@tebon.com.cn 研究助理 姓名:王思 邮箱:wangsi@tebon.com.cn 0 核心逻辑 海外大模型龙头轮番抢占性能第一宝座,比拼整体性能和多模态交互。 大模型的宝座三次更迭:初代GPT-4o自我革命,持续刷新综合性能;二代谷歌Gemini更极限的上下文理解、更低延时;翘楚Claude3.5聚焦视觉和交互体验。 大模型高地争夺:多模态的理解和响应,原生多模态技术比拼。大模型的效果取决于多模态理解与生成,毫秒级响应,更先进的视觉与音频理解能力,智能感知语气与语态。端到端原生多模态技术、统一神经网络,是竞争的主要角力点。 大模型的比较维度升级:从模型到叠加终端,跨设备的使用效果体验。如谷歌推出AIAgent项目Astra模型,可以手 机、眼睛镜头对准身边的物品,并向ProjectAstra提出一些疑问,它几乎能做到零延时地准确回答。 国内大模型逆袭之路:聚焦长文本,降价迭代提升竞争力。 先文后理:理科目前差距较大,聚焦长文本,国产大模型已有赶超GPT之势,如通义千问、KIMI、山海等。 长文本的三大难度:注意力机制计算复杂度、上下文记忆、最长文本约束难题。 商业上降价,加速迭代卷出未来。头部智谱/字节跳动/阿里/腾讯/百度/讯飞低价迭代,百川智能/月之暗面/零一万物等初创公司并未加入降价行列。从技术来看,降价的背后是训练&推理成本的下降。 投资建议:建议关注(1)国产大模型厂商:科大讯飞、商汤、云从科技、格林深瞳、拓尔思、昆仑万维、创业黑马等。(2)接入头部大模型的应用标的:金山办公、万兴科技、福昕软件、虹软科技、彩讯股份、焦点科技、润达医疗、金证股份、泛微网络、金蝶国际等,同时关注Kimi相关标的。 风险提示:海外大模型展现闭源趋势,国内大模型技术差距扩大;国内大模型在整体性能上未能达到商业使用的奇点;国内大模型在缺乏算力支持的情况下迭代速度放缓;国内大模型技术路线产生分歧,无法引领未来发展方向。 请务必阅读正文之后的信息披露及法律声明。1 目录CONTENTS 01 02 03 04 海外龙头轮番抢占第一宝座,比拼整体性能和多模态交互 国内大模型逆袭之路:聚焦长文本,降价迭代提升竞争力 投资建议 风险提示 请务必阅读正文之后的信息披露及法律声明。2 01 海外龙头轮番抢占第一宝座,比拼整体性能和多模态交互 1.1高速迭代,海外龙头轮番占领大模型之巅 1.2大模型高地争夺:多模态的理解和响应,原生多模态技术比拼 1.3比较维度升级:从模型到叠加终端,跨设备的使用效果体验 OpenAI、Google、Antropic三大厂商竞相轮换大模型第一宝座:自23年初GPT-4发布以来,在1年左右时间内基本稳定处于大模型最强位置。2024年海外大模型迭代速度有所加快,龙头竞争格局悄然发生变化。 1)5月,OpenAI发布新的旗舰模型GPT-4o,实现跨模态即时响应,相比GPT-4Turbo,刷新SOTA实现性能飞跃。 , 2)5月,Google发布Gemini1.5Pro进阶版实现200万tokens上下文,具备更强大的推理和理解能力。 3)6月,Antropic发布Claude3.5Sonnet,具备更强的代码和视觉能力,基准测试结果全方位碾压Gemini1.5Pro和Llama-400b, 大部分优于GPT-4o,一定程度上暂时代表着当前大模型性能最高水平。 图表:海外龙头竞相抢占大模型第一宝座 在传统基准测试中,GPT-4o在文本、推理和编码智能方面实现了GPT-4Turbo级别的性能,同时在多语言、音频和视 觉功能上达到了新的高水位线。 文本推理:GPT-4o在0-shotCOTMMLU(常识问题)上创下了88.7%的新高分。此外,在传统的5-shotno-CoTMMLU上,GPT-4o创下了87.2%的新高分。相较于GPT-4Turbo而言,GPT-4o文本推理能力有一定提升。 多语言识别:与Whisper-v3相比,GPT-4o在多种语言的识别中表现优异,尤其是资源匮乏的语言。 图表:GPT-4o文本推理相较GPT-4Turbo有一 定提升 图表:与Whisper-v3相比,GPT-4o在多种语言 的识别中表现优异(越低值越优异) 图表:GPT-4o在音频翻译表现上达到新的高水准 音频翻译:GPT-4o在音频翻译表现上达到新的高水准,且在MLS基准测试中优于Whisper-v3。 M3Exam测试:M3Exam基准测试既是多语言评估也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时还 包括图形和图表。在所有语言的基准测试中,GPT-4o都比GPT-4更强。 视觉理解:GPT-4o在视觉感知基准上实现了最先进的性能。具体来看,GPT-4o在MMMU测试中分数达到69.1,而GPT-4Turbo、Gemini1.0Ultra、Gemini1.5Pro、ClaudeOpus分别为63.1、59.4、58.5、59.4。 GPT-4o多模态能力范围显著拓展:除了文本、图像等常用功能,GPT-4o还支持3D物品合成、文本转字体等多样化功能。 GPT-4oAPI性价比有所提升:与GPT-4Turbo相比,GPT-4o速度提升2倍、成本却降低了50%,且速率限制提升5倍。 图表:在M3Exam基准测试中,GPT-4o比GPT-4强 图表:GPT-4o在视觉感知基准上实现了最先进 的性能 图表:GPT-4o实现3D物品合成 1.1.2二代:谷歌Gemini更极限的上下文理解、更低延时 图表:Gemini1.5Pro理论上下文极限为1000万tokens (高性能)进阶版Gemini1.5Pro:谷歌5月发布,上下文窗口翻倍、具备更强大的推理与理解能力。 上下文:过往Gemini1.5Pro支持100万tokens上下文,升级后可支持200万tokens(理论极限为1000万tokens),意味着可输入分析2小时视频、22小时音频、超过6万行代码或者140多万单词。这使得Gemini1.5 Pro能处理更大量的复杂信息,生成更准确、更细致的输出。 性能:通过数据和算法改进,升级版的Gemini1.5Pro增强了模型的代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力,在MMMU、AI2D、MathVista、ChartQA、DocVQA等多项公共基准测试中取得了显著改进,在多项图像和视频理解基准测试中也实现了最先进性能。 价格:输入7美元/百万tokens;3.5美元/百万tokens(128k上下文)。 图表:进阶版Gemini1.5Pro在大多数功能上胜率高于前代模型 图表:进阶版Gemini1.5Pro在基准测试中性能整体超越前代 (低延时)Gemini1.5Flash:是为了满足用户对低延迟和低成本的需求而设计的轻量化模型。它针对大规模、大批量、高频的任务进行了优化,服务更具有 成本效益。 更高效率和低延迟:在输入1万个字符的情况下,1.5Flash在英法日中语言中实现了最快生成速度。 上下文:仍实现了100万tokens的长上下文窗口,开 发人员还能注册尝试200万tokens。 性能:1.5Flash在跨大量信息的多模态推理方面表现出色,适用于摘要、聊天应用、图像和视频字幕、 长文档和表格的数据提取等多种任务。在核心能力测试中,相比1.0Pro胜率更高,在视觉能力测试中,相比1.0Ultra胜率更高。 价格:128K上下文窗口输入为0.35美元/百万tokens。 支持技术:这种强大性能来源于“蒸馏”技术,该技术将1.5Pro中最重要的知识和技能转移到更小、更高效的模型中。1.5Flash是一个Transformer解码器模型,旨在高效利用TPU,降低模型服务的延迟。例 如,它可以并行计算注意力和前馈分量。它使用高阶 预处理方法进行训练以提高质量。 图表:Gemini1.5Flash与Gemini1.0对比 图表:Gemini1.5Flash查询的每个输出字符的平均时间最短(ms) 6月,Anthropic发布下一代旗舰大模型Claude3.5Sonnet, 领跑全行业智能水准,也保持中端模型的性价比。 上下文&速度&价格:具有20万tokens上下文窗口。Claude 3.5Sonnet的运行速度是Claude3Opus的两倍;输入$3/百万tokens,输出$15/百万tokens,成本为Claude3Opus的五分之一。 写作更自然:Claude3.5Sonnet在研究生水平推理GPQA、本 科生水平推理MMLU和编程能力HumanEval方面树立了新的行业 基准。在把握语义的细微差别、幽默和复杂指令上有显著改进,能以更自然、亲和的语气输出高质量的写作内容。 代码方面表现优异。能否根据文字需求改进代码的测试中, 3.5Sonnet成功解决了64%的问题,而3Opus只解决了38%。 只要给予清晰的指令和必要工具,它就能独立编写、编辑和 执行代码,并具备复杂推理、故障排除与代码翻译能力。 图表:Cluade3.5Sonnet在内部编码测试中领先于Claude3模型家族 图表:Cluade3.5Sonnet在GPQA、MMLU等测试中性能基本领先 Claude3.5Sonnet:Anthropic迄今为止最强大的视觉模型。在解释图表、图形等视觉推理任务中改进明显。可以 准确地从粗略图像中转录文本,并输出更多洞察,这也是零售、物流和金融服务等领域的核心能力。 引入Artifacts变革交互方式。当要求Claude生成代码、文本或网站设计等内容时,Artifacts会出现在对话旁边的专用窗口中,供用户实时查看、编辑和构建Claude的创作。相当于形成了一个动态工作空间,将AI生成的内容更无缝集成到自己的项目和工作流程中。这项功能标志着Claude从对话式AI向协作工作环境的演变,未来将拓展至团队协作中。 图表:Claude3.5Sonnet是Anthropic最强大的视觉模型图表:Claude3.5Sonnet引入Artifacts变革交互方式 01 海外龙头轮番抢占第一宝座,比拼整体性能和多模态交互 1.1高速迭代,海外龙头轮番占领大模型之巅 1.2大模型高地争夺:多模态的理解和响应,原生多模态技术比拼 1.3比较维度升级:从模型到叠加终端,跨设备的使用效果体验 多模态理解与生成,毫秒级响应,实现即时语音对话。GPT-4o实现毫秒级视觉理解,GPT-4o能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。使用语音模式与ChatGPT对话当中,GPT-3.5与GPT-4平均延迟分别为2.8s、5.4s,而GPT-4o对音频输入的响应时间最短为232毫秒,平均为320毫秒,这与人类在对话中的响应时间相似。 更先进的视觉与音频理解能力,智能感知语气与语态。与现有模型相比,GPT-4o展现了出色的视觉和音频理解能力:首先,用户可在对话中随时打断;其次,可根据场景生成多种音调,带有人类般的情绪和情感;直接通过和AI视频通话让它在线解答各种问题。 图表:GPT-4o在与技术人员实时对话图表:GPT-4o实时感知技术人员情绪图表:GPT-4o通过视频聊天解决图片中的数学问题 传统多模态大模型技术架构一般包括编码、对齐、解码等步骤,逐步整合多模态关联信息,输出目标结果。 编码:包括视觉、音频、文本等模态编码器,目的是有效处理多个模态信息,转化为可处理状态; 对齐:不同模态编码器可能不能直接融合,