行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

从技术路径，纵观国产大模型逆袭之路

信息技术2024-07-03陈涵泊、王思德邦证券惊***

AI智能总结

国内外大模型竞争分析

海外大模型的崛起与竞争

技术迭代速度：海外大模型厂商如OpenAI、Google、Antropic等，通过不断的技术迭代，争抢性能第一的位置。如GPT-4o、Gemini 1.5 Pro、Claude3.5 Sonnet等产品的发布，展示了其在整体性能和多模态交互方面的领先地位。
多模态竞争：大模型的竞争已从单一模型性能扩展到多模态理解和响应能力，原生多模态技术成为关键。端到端原生多模态技术，如Flamingo和Chameleon，以及统一神经网络架构，成为技术竞争的核心。
用户体验升级：模型性能的提升不仅仅体现在技术参数上，还体现在跨设备的使用效果体验上，如谷歌的AI Agent项目Astra，通过手机或眼镜摄像头实时获取信息，实现与AI的无缝互动。

国内大模型的逆袭与挑战

聚焦长文本：国内大模型如通义千问、KIMI、山海等，侧重于长文本处理，通过降价策略加速迭代，提升市场竞争力。
技术挑战：面对海外大模型的挑战，国内大模型在多语言识别、音频翻译、视觉理解等长文本处理领域面临一定难度。
商业策略：通过降低价格、加速迭代，国内大模型厂商在市场中寻求突破，如科大讯飞、商汤、云从科技等厂商积极响应。

投资建议与风险提示

投资建议：建议关注国产大模型厂商，如科大讯飞、商汤、云从科技等，以及接入头部大模型的应用标的，如金山办公、万兴科技等。
风险提示：关注海外大模型的闭源趋势、国内大模型技术差距的扩大、迭代速度放缓等问题，以及技术路线分歧带来的不确定性。

结论

海外大模型通过高速迭代和技术创新持续占据领先地位，而国内大模型则通过聚焦长文本处理、降价策略等方式积极应对竞争，寻求市场突破。随着技术的不断演进和市场环境的变化，大模型产业正迎来新一轮的创新与竞争高潮。

证券研究报告|行业深度计算机行业投资评级|优于大市（维持） 2024年7月4日从技术路径，纵观国产大模型逆袭之路证券分析师姓名：陈涵泊资格编号：S0120524040004 邮箱：chenhb3＠tebon.com.cn 研究助理姓名：王思邮箱：wangsi＠tebon.com.cn 0 核心逻辑 海外大模型龙头轮番抢占性能第一宝座，比拼整体性能和多模态交互。 大模型的宝座三次更迭：初代GPT-4o自我革命，持续刷新综合性能；二代谷歌Gemini更极限的上下文理解、更低延时；翘楚Claude3.5聚焦视觉和交互体验。 大模型高地争夺：多模态的理解和响应，原生多模态技术比拼。大模型的效果取决于多模态理解与生成，毫秒级响应，更先进的视觉与音频理解能力，智能感知语气与语态。端到端原生多模态技术、统一神经网络，是竞争的主要角力点。 大模型的比较维度升级：从模型到叠加终端，跨设备的使用效果体验。如谷歌推出AIAgent项目Astra模型，可以手机、眼睛镜头对准身边的物品，并向ProjectAstra提出一些疑问，它几乎能做到零延时地准确回答。 国内大模型逆袭之路：聚焦长文本，降价迭代提升竞争力。 先文后理：理科目前差距较大，聚焦长文本，国产大模型已有赶超GPT之势，如通义千问、KIMI、山海等。 长文本的三大难度：注意力机制计算复杂度、上下文记忆、最长文本约束难题。 商业上降价，加速迭代卷出未来。头部智谱/字节跳动/阿里/腾讯/百度/讯飞低价迭代，百川智能/月之暗面/零一万物等初创公司并未加入降价行列。从技术来看，降价的背后是训练&推理成本的下降。 投资建议：建议关注（1）国产大模型厂商：科大讯飞、商汤、云从科技、格林深瞳、拓尔思、昆仑万维、创业黑马等。（2）接入头部大模型的应用标的：金山办公、万兴科技、福昕软件、虹软科技、彩讯股份、焦点科技、润达医疗、金证股份、泛微网络、金蝶国际等，同时关注Kimi相关标的。 风险提示：海外大模型展现闭源趋势，国内大模型技术差距扩大；国内大模型在整体性能上未能达到商业使用的奇点；国内大模型在缺乏算力支持的情况下迭代速度放缓;国内大模型技术路线产生分歧,无法引领未来发展方向。请务必阅读正文之后的信息披露及法律声明。1 目录CONTENTS 01 02 03 04 海外龙头轮番抢占第一宝座，比拼整体性能和多模态交互国内大模型逆袭之路：聚焦长文本，降价迭代提升竞争力投资建议风险提示请务必阅读正文之后的信息披露及法律声明。2 01 海外龙头轮番抢占第一宝座，比拼整体性能和多模态交互 1.1高速迭代，海外龙头轮番占领大模型之巅 1.2大模型高地争夺：多模态的理解和响应，原生多模态技术比拼 1.3比较维度升级：从模型到叠加终端，跨设备的使用效果体验 OpenAI、Google、Antropic三大厂商竞相轮换大模型第一宝座：自23年初GPT-4发布以来，在1年左右时间内基本稳定处于大模型最强位置。2024年海外大模型迭代速度有所加快，龙头竞争格局悄然发生变化。 1）5月，OpenAI发布新的旗舰模型GPT-4o，实现跨模态即时响应，相比GPT-4Turbo，刷新SOTA实现性能飞跃。， 2）5月，Google发布Gemini1.5Pro进阶版实现200万tokens上下文，具备更强大的推理和理解能力。 3）6月，Antropic发布Claude3.5Sonnet，具备更强的代码和视觉能力，基准测试结果全方位碾压Gemini1.5Pro和Llama-400b，大部分优于GPT-4o，一定程度上暂时代表着当前大模型性能最高水平。图表：海外龙头竞相抢占大模型第一宝座 在传统基准测试中，GPT-4o在文本、推理和编码智能方面实现了GPT-4Turbo级别的性能，同时在多语言、音频和视觉功能上达到了新的高水位线。 文本推理：GPT-4o在0-shotCOTMMLU（常识问题）上创下了88.7%的新高分。此外，在传统的5-shotno-CoTMMLU上，GPT-4o创下了87.2%的新高分。相较于GPT-4Turbo而言，GPT-4o文本推理能力有一定提升。 多语言识别：与Whisper-v3相比，GPT-4o在多种语言的识别中表现优异，尤其是资源匮乏的语言。图表：GPT-4o文本推理相较GPT-4Turbo有一定提升图表：与Whisper-v3相比，GPT-4o在多种语言的识别中表现优异（越低值越优异）图表：GPT-4o在音频翻译表现上达到新的高水准 音频翻译：GPT-4o在音频翻译表现上达到新的高水准，且在MLS基准测试中优于Whisper-v3。 M3Exam测试：M3Exam基准测试既是多语言评估也是视觉评估，由来自其他国家标准化测试的多项选择题组成，有时还包括图形和图表。在所有语言的基准测试中，GPT-4o都比GPT-4更强。 视觉理解：GPT-4o在视觉感知基准上实现了最先进的性能。具体来看，GPT-4o在MMMU测试中分数达到69.1，而GPT-4Turbo、Gemini1.0Ultra、Gemini1.5Pro、ClaudeOpus分别为63.1、59.4、58.5、59.4。 GPT-4o多模态能力范围显著拓展：除了文本、图像等常用功能，GPT-4o还支持3D物品合成、文本转字体等多样化功能。 GPT-4oAPI性价比有所提升：与GPT-4Turbo相比，GPT-4o速度提升2倍、成本却降低了50%，且速率限制提升5倍。图表：在M3Exam基准测试中，GPT-4o比GPT-4强图表：GPT-4o在视觉感知基准上实现了最先进的性能图表：GPT-4o实现3D物品合成 1.1.2二代：谷歌Gemini更极限的上下文理解、更低延时图表：Gemini1.5Pro理论上下文极限为1000万tokens (高性能)进阶版Gemini1.5Pro：谷歌5月发布，上下文窗口翻倍、具备更强大的推理与理解能力。 上下文：过往Gemini1.5Pro支持100万tokens上下文，升级后可支持200万tokens（理论极限为1000万tokens），意味着可输入分析2小时视频、22小时音频、超过6万行代码或者140多万单词。这使得Gemini1.5 Pro能处理更大量的复杂信息，生成更准确、更细致的输出。 性能：通过数据和算法改进，升级版的Gemini1.5Pro增强了模型的代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力，在MMMU、AI2D、MathVista、ChartQA、DocVQA等多项公共基准测试中取得了显著改进，在多项图像和视频理解基准测试中也实现了最先进性能。 价格：输入7美元/百万tokens；3.5美元/百万tokens（128k上下文）。图表：进阶版Gemini1.5Pro在大多数功能上胜率高于前代模型图表：进阶版Gemini1.5Pro在基准测试中性能整体超越前代 （低延时）Gemini1.5Flash：是为了满足用户对低延迟和低成本的需求而设计的轻量化模型。它针对大规模、大批量、高频的任务进行了优化，服务更具有成本效益。 更高效率和低延迟：在输入1万个字符的情况下，1.5Flash在英法日中语言中实现了最快生成速度。 上下文：仍实现了100万tokens的长上下文窗口，开发人员还能注册尝试200万tokens。 性能：1.5Flash在跨大量信息的多模态推理方面表现出色，适用于摘要、聊天应用、图像和视频字幕、长文档和表格的数据提取等多种任务。在核心能力测试中，相比1.0Pro胜率更高，在视觉能力测试中，相比1.0Ultra胜率更高。 价格：128K上下文窗口输入为0.35美元/百万tokens。 支持技术：这种强大性能来源于“蒸馏”技术，该技术将1.5Pro中最重要的知识和技能转移到更小、更高效的模型中。1.5Flash是一个Transformer解码器模型,旨在高效利用TPU，降低模型服务的延迟。例如，它可以并行计算注意力和前馈分量。它使用高阶预处理方法进行训练以提高质量。图表：Gemini1.5Flash与Gemini1.0对比图表：Gemini1.5Flash查询的每个输出字符的平均时间最短（ms） 6月，Anthropic发布下一代旗舰大模型Claude3.5Sonnet，领跑全行业智能水准，也保持中端模型的性价比。 上下文&速度&价格：具有20万tokens上下文窗口。Claude 3.5Sonnet的运行速度是Claude3Opus的两倍；输入$3/百万tokens，输出$15/百万tokens，成本为Claude3Opus的五分之一。 写作更自然：Claude3.5Sonnet在研究生水平推理GPQA、本科生水平推理MMLU和编程能力HumanEval方面树立了新的行业基准。在把握语义的细微差别、幽默和复杂指令上有显著改进，能以更自然、亲和的语气输出高质量的写作内容。 代码方面表现优异。能否根据文字需求改进代码的测试中， 3.5Sonnet成功解决了64%的问题，而3Opus只解决了38%。只要给予清晰的指令和必要工具,它就能独立编写、编辑和执行代码，并具备复杂推理、故障排除与代码翻译能力。图表：Cluade3.5Sonnet在内部编码测试中领先于Claude3模型家族图表：Cluade3.5Sonnet在GPQA、MMLU等测试中性能基本领先 Claude3.5Sonnet：Anthropic迄今为止最强大的视觉模型。在解释图表、图形等视觉推理任务中改进明显。可以准确地从粗略图像中转录文本，并输出更多洞察，这也是零售、物流和金融服务等领域的核心能力。 引入Artifacts变革交互方式。当要求Claude生成代码、文本或网站设计等内容时，Artifacts会出现在对话旁边的专用窗口中，供用户实时查看、编辑和构建Claude的创作。相当于形成了一个动态工作空间，将AI生成的内容更无缝集成到自己的项目和工作流程中。这项功能标志着Claude从对话式AI向协作工作环境的演变，未来将拓展至团队协作中。图表：Claude3.5Sonnet是Anthropic最强大的视觉模型图表：Claude3.5Sonnet引入Artifacts变革交互方式 01 海外龙头轮番抢占第一宝座，比拼整体性能和多模态交互 1.1高速迭代，海外龙头轮番占领大模型之巅 1.2大模型高地争夺：多模态的理解和响应，原生多模态技术比拼 1.3比较维度升级：从模型到叠加终端，跨设备的使用效果体验 多模态理解与生成，毫秒级响应，实现即时语音对话。GPT-4o实现毫秒级视觉理解，GPT-4o能够接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。使用语音模式与ChatGPT对话当中，GPT-3.5与GPT-4平均延迟分别为2.8s、5.4s，而GPT-4o对音频输入的响应时间最短为232毫秒，平均为320毫秒，这与人类在对话中的响应时间相似。 更先进的视觉与音频理解能力，智能感知语气与语态。与现有模型相比，GPT-4o展现了出色的视觉和音频理解能力：首先，用户可在对话中随时打断；其次，可根据场景生成多种音调，带有人类般的情绪和情感；直接通过和AI视频通话让它在线解答各种问题。图表：GPT-4o在与技术人员实时对话图表：GPT-4o实时感知技术人员情绪图表：GPT-4o通过视频聊天解决图片中的数学问题 传统多模态大模型技术架构一般包括编码、对齐、解码等步骤，逐步整合多模态关联信息，输出目标结果。 编码：包括视觉、音频、文本等模态编码器，目的是有效处理多个模态信息，转化为可处理状态； 对齐：不同模态编码器可能不能直接融合，

点击免费查看完整报告