您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[德邦证券]:从技术路径,纵观国产大模型逆袭之路 - 发现报告

从技术路径,纵观国产大模型逆袭之路

信息技术2024-07-03陈涵泊、王思德邦证券惊***
AI智能总结
查看更多
从技术路径,纵观国产大模型逆袭之路

证券研究报告行业深度 计算机 行业投资评级优于大市(维持) 2024年7月4日 从技术路径,纵观国产大模型逆袭之路 证券分析师 姓名:陈涵泊 资格编号:S0120524040004 邮箱:chenhb3teboncomcn 研究助理 姓名:王思 邮箱:wangsiteboncomcn 0 核心逻辑 海外大模型龙头轮番抢占性能第一宝座,比拼整体性能和多模态交互。 大模型的宝座三次更迭:初代GPT4o自我革命,持续刷新综合性能;二代谷歌Gemini更极限的上下文理解、更低延时;翘楚Claude35聚焦视觉和交互体验。 大模型高地争夺:多模态的理解和响应,原生多模态技术比拼。大模型的效果取决于多模态理解与生成,毫秒级响应,更先进的视觉与音频理解能力,智能感知语气与语态。端到端原生多模态技术、统一神经网络,是竞争的主要角力点。 大模型的比较维度升级:从模型到叠加终端,跨设备的使用效果体验。如谷歌推出AIAgent项目Astra模型,可以手 机、眼睛镜头对准身边的物品,并向ProjectAstra提出一些疑问,它几乎能做到零延时地准确回答。 国内大模型逆袭之路:聚焦长文本,降价迭代提升竞争力。 先文后理:理科目前差距较大,聚焦长文本,国产大模型已有赶超GPT之势,如通义千问、KIMI、山海等。 长文本的三大难度:注意力机制计算复杂度、上下文记忆、最长文本约束难题。 商业上降价,加速迭代卷出未来。头部智谱字节跳动阿里腾讯百度讯飞低价迭代,百川智能月之暗面零一万物等初创公司并未加入降价行列。从技术来看,降价的背后是训练推理成本的下降。 投资建议:建议关注(1)国产大模型厂商:科大讯飞、商汤、云从科技、格林深瞳、拓尔思、昆仑万维、创业黑马等。(2)接入头部大模型的应用标的:金山办公、万兴科技、福昕软件、虹软科技、彩讯股份、焦点科技、润达医疗、金证股份、泛微网络、金蝶国际等,同时关注Kimi相关标的。 风险提示:海外大模型展现闭源趋势,国内大模型技术差距扩大;国内大模型在整体性能上未能达到商业使用的奇点;国内大模型在缺乏算力支持的情况下迭代速度放缓国内大模型技术路线产生分歧无法引领未来发展方向。 请务必阅读正文之后的信息披露及法律声明。1 目录CONTENTS 01 02 03 04 海外龙头轮番抢占第一宝座,比拼整体性能和多模态交互 国内大模型逆袭之路:聚焦长文本,降价迭代提升竞争力 投资建议 风险提示 请务必阅读正文之后的信息披露及法律声明。2 01 海外龙头轮番抢占第一宝座,比拼整体性能和多模态交互 11高速迭代,海外龙头轮番占领大模型之巅 12大模型高地争夺:多模态的理解和响应,原生多模态技术比拼 13比较维度升级:从模型到叠加终端,跨设备的使用效果体验 OpenAI、Google、Antropic三大厂商竞相轮换大模型第一宝座:自23年初GPT4发布以来,在1年左右时间内基本稳定处于大模型最强位置。2024年海外大模型迭代速度有所加快,龙头竞争格局悄然发生变化。 1)5月,OpenAI发布新的旗舰模型GPT4o,实现跨模态即时响应,相比GPT4Turbo,刷新SOTA实现性能飞跃。 , 2)5月,Google发布Gemini15Pro进阶版实现200万tokens上下文,具备更强大的推理和理解能力。 3)6月,Antropic发布Claude35Sonnet,具备更强的代码和视觉能力,基准测试结果全方位碾压Gemini15Pro和Llama400b, 大部分优于GPT4o,一定程度上暂时代表着当前大模型性能最高水平。 图表:海外龙头竞相抢占大模型第一宝座 在传统基准测试中,GPT4o在文本、推理和编码智能方面实现了GPT4Turbo级别的性能,同时在多语言、音频和视 觉功能上达到了新的高水位线。 文本推理:GPT4o在0shotCOTMMLU(常识问题)上创下了887的新高分。此外,在传统的5shotnoCoTMMLU上,GPT4o创下了872的新高分。相较于GPT4Turbo而言,GPT4o文本推理能力有一定提升。 多语言识别:与Whisperv3相比,GPT4o在多种语言的识别中表现优异,尤其是资源匮乏的语言。 图表:GPT4o文本推理相较GPT4Turbo有一 定提升 图表:与Whisperv3相比,GPT4o在多种语言 的识别中表现优异(越低值越优异) 图表:GPT4o在音频翻译表现上达到新的高水准 音频翻译:GPT4o在音频翻译表现上达到新的高水准,且在MLS基准测试中优于Whisperv3。 M3Exam测试:M3Exam基准测试既是多语言评估也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时还 包括图形和图表。在所有语言的基准测试中,GPT4o都比GPT4更强。 视觉理解:GPT4o在视觉感知基准上实现了最先进的性能。具体来看,GPT4o在MMMU测试中分数达到691,而GPT4Turbo、Gemini10Ultra、Gemini15Pro、ClaudeOpus分别为631、594、585、594。 GPT4o多模态能力范围显著拓展:除了文本、图像等常用功能,GPT4o还支持3D物品合成、文本转字体等多样化功能。 GPT4oAPI性价比有所提升:与GPT4Turbo相比,GPT4o速度提升2倍、成本却降低了50,且速率限制提升5倍。 图表:在M3Exam基准测试中,GPT4o比GPT4强 图表:GPT4o在视觉感知基准上实现了最先进 的性能 图表:GPT4o实现3D物品合成 112二代:谷歌Gemini更极限的上下文理解、更低延时 图表:Gemini15Pro理论上下文极限为1000万tokens 高性能进阶版Gemini15Pro:谷歌5月发布,上下文窗口翻倍、具备更强大的推理与理解能力。 上下文:过往Gemini15Pro支持100万tokens上下文,升级后可支持200万tokens(理论极限为1000万tokens),意味着可输入分析2小时视频、22小时音频、超过6万行代码或者140多万单词。这使得Gemini15 Pro能处理更大量的复杂信息,生成更准确、更细致的输出。 性能:通过数据和算法改进,升级版的Gemini15Pro增强了模型的代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力,在MMMU、AI2D、MathVista、ChartQA、DocVQA等多项公共基准测试中取得了显著改进,在多项图像和视频理解基准测试中也实现了最先进性能。 价格:输入7美元百万tokens;35美元百万tokens(128k上下文)。 图表:进阶版Gemini15Pro在大多数功能上胜率高于前代模型 图表:进阶版Gemini15Pro在基准测试中性能整体超越前代 (低延时)Gemini15Flash:是为了满足用户对低延迟和低成本的需求而设计的轻量化模型。它针对大规模、大批量、高频的任务进行了优化,服务更具有 成本效益。 更高效率和低延迟:在输入1万个字符的情况下,15Flash在英法日中语言中实现了最快生成速度。 上下文:仍实现了100万tokens的长上下文窗口,开 发人员还能注册尝试200万tokens。 性能:15Flash在跨大量信息的多模态推理方面表现出色,适用于摘要、聊天应用、图像和视频字幕、 长文档和表格的数据提取等多种任务。在核心能力测试中,相比10Pro胜率更高,在视觉能力测试中,相比10Ultra胜率更高。 价格:128K上下文窗口输入为035美元百万tokens。 支持技术:这种强大性能来源于“蒸馏”技术,该技术将15Pro中最重要的知识和技能转移到更小、更高效的模型中。15Flash是一个Transformer解码器模型旨在高效利用TPU,降低模型服务的延迟。例 如,它可以并行计算注意力和前馈分量。它使用高阶 预处理方法进行训练以提高质量。 图表:Gemini15Flash与Gemini10对比 图表:Gemini15Flash查询的每个输出字符的平均时间最短(ms) 6月,Anthropic发布下一代旗舰大模型Claude35Sonnet, 领跑全行业智能水准,也保持中端模型的性价比。 上下文速度价格:具有20万tokens上下文窗口。Claude 35Sonnet的运行速度是Claude3Opus的两倍;输入3百万tokens,输出15百万tokens,成本为Claude3Opus的五分之一。 写作更自然:Claude35Sonnet在研究生水平推理GPQA、本 科生水平推理MMLU和编程能力HumanEval方面树立了新的行业 基准。在把握语义的细微差别、幽默和复杂指令上有显著改进,能以更自然、亲和的语气输出高质量的写作内容。 代码方面表现优异。能否根据文字需求改进代码的测试中, 35Sonnet成功解决了64的问题,而3Opus只解决了38。 只要给予清晰的指令和必要工具它就能独立编写、编辑和 执行代码,并具备复杂推理、故障排除与代码翻译能力。 图表:Cluade35Sonnet在内部编码测试中领先于Claude3模型家族 图表:Cluade35Sonnet在GPQA、MMLU等测试中性能基本领先 Claude35Sonnet:Anthropic迄今为止最强大的视觉模型。在解释图表、图形等视觉推理任务中改进明显。可以 准确地从粗略图像中转录文本,并输出更多洞察,这也是零售、物流和金融服务等领域的核心能力。 引入Artifacts变革交互方式。当要求Claude生成代码、文本或网站设计等内容时,Artifacts会出现在对话旁边的专用窗口中,供用户实时查看、编辑和构建Claude的创作。相当于形成了一个动态工作空间,将AI生成的内容更无缝集成到自己的项目和工作流程中。这项功能标志着Claude从对话式AI向协作工作环境的演变,未来将拓展至团队协作中。 图表:Claude35Sonnet是Anthropic最强大的视觉模型图表:Claude35Sonnet引入Artifacts变革交互方式 01 海外龙头轮番抢占第一宝座,比拼整体性能和多模态交互 11高速迭代,海外龙头轮番占领大模型之巅 12大模型高地争夺:多模态的理解和响应,原生多模态技术比拼 13比较维度升级:从模型到叠加终端,跨设备的使用效果体验 多模态理解与生成,毫秒级响应,实现即时语音对话。GPT4o实现毫秒级视觉理解,GPT4o能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。使用语音模式与ChatGPT对话当中,GPT35与GPT4平均延迟分别为28s、54s,而GPT4o对音频输入的响应时间最短为232毫秒,平均为320毫秒,这与人类在对话中的响应时间相似。 更先进的视觉与音频理解能力,智能感知语气与语态。与现有模型相比,GPT4o展现了出色的视觉和音频理解能力:首先,用户可在对话中随时打断;其次,可根据场景生成多种音调,带有人类般的情绪和情感;直接通过和AI视频通话让它在线解答各种问题。 图表:GPT4o在与技术人员实时对话图表:GPT4o实时感知技术人员情绪图表:GPT4o通过视频聊天解决图片中的数学问题 传统多模态大模型技术架构一般包括编码、对齐、解码等步骤,逐步整合多模态关联信息,输出目标结果。 编码:包括视觉、音频、文本等模态编码器,目的是有效处理多个模态信息,转化为可处理状态; 对齐:不同模态编码器可能不能直接融合,通过建立共同表示空间,将不同模态的表示统一,有效整合多个模态信息; 解码:编码的反向过程,把模型的内部表示转化为物理世界的自然信号,即输出人类可识别的信息; 特点:传统的多模态基础模型,通常为每种模态采用特定的编码器或解码器,将不同的模态分离开。 缺点:限制了模型有效融合跨模态信息的能力。 图表:多模态大模型一般架构 图表:Flamingo模型架