行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

计算机行业专题研究：AI大模型成果不断涌现，AGI或将到来

信息技术 2024-05-18 黄楷,陈安宇国联证券 Leona

根据报告，人工智能大模型的不断涌现，尤其是GPT-4o的发布，将带来更好的人机交互体验，这可能会引发人工智能辅助技术的革新。同时，谷歌的Gemini模型和Veo的发布，也表明了人工智能在多个领域的应用正在加速推进。此外，大模型的成本也在快速下降，这为商业化更好的落地奠定了基础。建议关注算力、端侧开发、办公软件、行业信息化等方面的机会。

人机交互体验优化，AGI或将到来北京时间5月14日，OpenAI发布了新一代多模态AI大模型GPT-4o，可接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合输出，响应时间与人类相似，人机交互效果更为自然。北京时间5月15日，谷歌召开年度开发者I/O大会，Gemini模型全面升级，发布文生图模型Imagen 3、视频生成模型Veo，此外全面赋能谷歌应用，包括AI搜索、Project Astra、Gemini Live等。国产大模型能力对标GPT-4，成本快速下降腾讯、阿里、字节跳动、商汤、幻方等近期发布了AI产品进展，国产大模型快速迭代升级，性能持续提升，创新成果不断涌现，如商汤日日新SenseNova5.0综合性能全面对标GPT-4 Turbo，DeepSeek发布全球最强开源MoE模型，阿里云通义千问2.5OpenCompass得分追平GPT-4Turbo。商业化进程持续推进，如月之暗面推出Kimi+，MiniMax上架C端产品“海螺AI”。大模型成本快速下降，如智谱GLM-3 Turbo模型调用价格调整为0.001元/千tokens，豆包主力模型定价0.0008元/千tokens。多模态能力提升、商业化推进、价格下降是行业发展趋势 AIGC的四个核心要素：数据、算力、模型和应用，正在逐步实现正反馈，呈现三大发展趋势。（1）多模态能力提升：大模型向原生多模态发展，带来更好的人机交互体验，拓展更广泛的应用场景；（2）商业化进程加速推进：各大AI厂商加速推进toC端产品、toB端服务的落地，利用AI能力重塑原有产品线；（3）大模型使用价格快速下降：随着模型、算力等的发展，大模型输入、输出价格快速下降，为商业化更好落地奠定了基础。建议关注算力、端侧开发、办公软件、行业信息化等方面机遇（1）算力基础设施建设机遇：大模型商用化进程不断推进，将提升算力需求，建议关注中科曙光、紫光股份、浪潮信息等；（2）端侧AI软件开发机遇：端侧设备将是人机交互的重要中介，带动软件开发机遇，建议关注中科创达等；（3）生产力工具革新机遇：大模型有望重塑员工工作流程、企业组织架构等，建议关注金山办公、用友网络、泛微网络等；（4）行业信息化创新机遇：大模型在行业业务系统方面的应用场景不断扩展，建议关注恒生电子、宇信科技、中控技术、卫宁健康等。风险提示：AI技术发展演进不及预期；商业化进程不及预期；法律政策监管风险；行业竞争加剧等。 1.人机交互体验优化，AGI或将到来 1.1GPT-4o迈向更自然的人机交互 GPT-4o实现原生多模态。在GPT-4o之前，用户使用语音模式与ChatGPT对话，平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)，其实现是通过三个独立模型组成的管道：一个简单模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。北京时间5月14日凌晨，OpenAI发布了新一代多模态人工智能（AI）大模型GPT-4o，跨文本、视觉和音频端到端训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。图表1：传统语音模式与ChatGPT对话的实现方式人机交互效果更为自然。GPT-4o可接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合输出。它可以在短至232毫秒的时间内响应音频输入，平均为320毫秒，与人类的响应时间相似。根据基准测试，GPT-4o在文本、推理和编码智能方面实现了GPT-4Turbo级别的性能，同时在多语言、音频和视觉功能上达到了新的水平。图表2：GPT-4o在视觉感知基准上实现了最先进的性能免费用户可体验GPT-4o的文本和图像功能。在ChatGPT网页端，免费用户可以体验GPT-4o的文本和图像功能，不过额度有限；付费用户的额度是免费用户的5倍。与GPT-4 Turbo相比，GPT-4o速度提高2倍，价格降低一半，速率限制提高5倍。官方计划在未来几周内在API中向一小部分值得信赖的合作伙伴推出对GPT-4o新音频和视频功能的支持。此外ChatGPT推出桌面端应用，目前已经有Mac原生应用可安装，Windows客户端预计会在晚些时候推出。图表3：免费用户可体验GPT-4o的文本和图像功能 1.2谷歌全面升级基础大模型及应用 Gemini模型全面升级。北京时间5月15日，谷歌召开了年度开发者I/O大会，发布了一系列AI驱动的产品和功能。Gemini模型全面升级：（1）升级版Gemini 1.5 Pro上下文长度突破200万token，超过目前所有商用大模型；（2）轻量级模型Gemini 1.5 Flash发布，相较于旧有模型，实现了低延迟响应并降低使用成本，100万tokens只要0.35美元；（3）Gemini Nano将具备多模态能力。多模态模型方面：（1）谷歌发布文生图模型Imagen3模型，能够更准确理解图像的文本提示词，并且生成的图片更具创造性和细节；（2）发布视频生成模型Veo，可以根据文本提示创建大约一分钟长的1080p视频剪辑，可捕捉不同的视觉和电影风格，包括风景和延时镜头，并对已生成的镜头进行编辑和调整。图表4：谷歌发布了一系列AI驱动的产品和功能 Gemini全面赋能谷歌应用。（1）AI搜索：功能包括搜索摘要、多步推理功能、在搜索中做计划、以及用视频提问等；（2）Project Astra：通过手机和AR眼镜的联合使用，AI能够在目之所及的范围内完成和用户的实时交互。（3）Gemini Live：用户可以通过手机和Gemini直接进行语音交互，Gemini Live还能与谷歌日历、任务、备忘录等应用无缝连接。 2.国产大模型能力对标GPT-4，成本快速下降国内互联网头部企业、人工智能创新企业、垂直领域厂商等重视AI产业发展趋势，持续进行研发投入，腾讯、阿里、字节跳动、商汤、幻方等近期发布了AI产品进展。国产大模型快速迭代升级，性能持续提升，创新成果不断涌现，商业化进程持续推进，成本快速下降。 2.1商汤日日新：综合性能全面对标GPT-4 Turbo 4月23日，商汤科技带来全新升级的“日日新SenseNova 5.0”大模型，具备更强的知识、数学、推理及代码能力，综合性能全面对标GPT-4 Turbo，并在主流客观评测上达到或超越GPT-4 Turbo。商汤日日新提升能力主要方面：采用混合专家架构（MoE），激活少量参数就能完成推理。且推理时上下文窗口达到200K左右。基于超过10TB tokens训练、覆盖数千亿量级的逻辑型合成思维链数据。商汤AI大装置SenseCore算力设施与算法设计的联合调优。自然语言能力上，创意写作、推理以及总结能力均大幅提升。文生图能力有较大提升。多模态和数据分析能力上，商汤多模态大模型的图文感知能力达到全球领先水平，在权威综合基准测试MMBench中综合得分排名首位；支持高清长图的解析和理解以及文生图交互式生成，还可以实现复杂的跨文档知识抽取及总结问答展示。图表5：商汤日日新模型综合基准测试综合得分排名首位 2.2幻方量化Deepseek：全球最强开源MoE模型 5月6日，幻方量化正式开源第二代MoE模型:DeepSeek-V2。该模型中文综合能力（AlignBench）开源模型中最强：与GPT-4-Turbo，文心4.0等闭源模型在评测中处于同一梯队。英文综合能力（MT-Bench）处于第一梯队：英文综合能力（MT-Bench）与最强的开源模型LLaMA3-70B处于同一梯队，超过最强MoE开源模型Mixtral8x22B。知识、数学、推理、编程等榜单结果位居前列。开源模型支持128K上下文，对话官网/API支持32K上下文。该模型使用236B参数量，32K上下文（对话/API），费用上采取1元/百万输入Tokens，2元/百万输出Tokens，同时兼容OpenAI API接口。图表6：Deepseek-V2媲美GPT4能力 2.3阿里云通义千问：OpenCompass得分追平GPT-4Turbo 5月9日，在北京阿里云AI智领者峰会上，阿里云正式发布通义千问2.5，并开源通义千问1100亿参数模型。2.5版模型的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%，中文能力更是持续领先业界。通义发布1100亿参数开源模型Qwen1.5-110B，该模型在MMLU、TheoremQA、GPQA等基准测评中超越了Meta的Llama-3-70B模型；在HuggingFace推出的开源大模型排行榜Open LLM Leaderboard上，Qwen1.5-110B冲上榜首，再度证明通义开源系列业界最强的竞争力。图表7：阿里云通义千问模型矩阵 2.4腾讯混元：拥抱开源，产业实用 5月14日，腾讯宣布旗下的混元文生图大模型全面升级并对外开源。混元文生图大模型是首个采用中文原生开发，同时支持中英文输入和理解的DiT架构模型，参数规模达到15亿。模型采用了与sora模型相同的DiT架构，使其不仅适用于文本生成图像，也能作为视频等多模态视觉内容生成的基础。 5月17日，腾讯云生成式AI产业应用峰会在北京召开，公布大模型研发、应用产品的系列进展。腾讯混元大模型能力持续升级，多个版本模型hunyuan-pro、hunyuan-standard、hunyuan-lite通过腾讯云对外开放，满足企业客户、开发者在不同场景下的模型需求，落地最优性价比模型方案。腾讯云大模型知识引擎、图像创作引擎、视频创作引擎三大工具发布，打造大模型时代原生工具链，通过PaaS服务简化数据接入、模型精调、应用开发流程，助力企业更高效、简单地用大模型开发AI原生应用，快速接入生产场景。图表8：腾讯混元模型服务通过腾讯云对外开放 2.5月之暗面Kimi：AI Agent进一步改善用户应用端体验 5月6日，月之暗面旗下kimi智能助手迎来大更新推出Kimi+。Kimi+首批上线23个智能体，分别是官方推荐、办公提效、辅助写作、社交娱乐、生活实用5大领域。在输入框里打“@”，就可以召唤出用户所需要的工具人Kimi+。Kimi与应用端的联动进一步推动了AI应用的发展，从而给客户带来更好的应用体验。图表9：Kimi+智能助手 2.6智谱AI：价格大幅下调，GLM系列将迎来更新 GLM-3 Turbo模型调用价格由5元/百万tokens调整为1元/百万tokens，最新价格相当于0.001元/千tokens。公司即将推出GLM-3 Turbo Batch批处理API（异步任务处理），适用于无需实时响应场景，包括效果评估、数据批处理等任务，价格为1元/200万token。公司对于新注册的用户，赠送额度从500万tokens提升至2500万tokens（包含2000万入门级额度和500万企业级额度）。企业版GLM-4/GLM-4V实现了视觉语言特征的深度融合，支持视觉问答、图像字幕、视觉定位、复杂目标检测等各类图像理解任务。在上海人工智能实验室发布的大模型开源开放评测体系司南（OpenCompass 2.0）中，GLM-4综合排名第二，仅次于GPT-4 Turbo。图表10：智谱大模型标准版定价 2.7Minimax：上线产品对接C端用户，大模型应用端持续拓展 5月15日，大模型公司MiniMax宣布上架C端产品“海螺AI”，背后接入了MiniMax自研的多模态大模型，包括万亿参数MoE大语言模型abab6.5，语音大模型和图像大模型。该产品支持输入200ktokens的上下文长度，1秒内处理近3万字的文本。可以进行书籍、长篇报告、学术论文等长篇内容的阅读、分析和文本写作。图表11：Minimax发

点击免费查看完整报告

计算机行业专题研究：AI大模型成果不断涌现，AGI或将到来

你可能感兴趣

计算机行业月报：AI模型成果密集发布，制裁或将全面升级

计算机行业专题研究：利润有所改善，AI算力国产化或将成为投资主线

计算机行业快评报告：AI大模型“APP Store”时代即将到来

计算机行业深度研究：如何实现AGI：大模型现状及发展路径展望

计算机行业：大模型、算力、政策利好频出，AGI行业持续发展——人工智能行业动态追踪

计算机行业：商汤“日日新”大模型发布，目标瞄准AGI时代

计算机行业点评报告：昆仑万维发布2026 AGI战略及三大世界级大模型，技术壁垒与商业化空间双升级

计算机：AGI催生新研究范式，AIGC或将重塑内容生产

计算机行业专题研究：AGI里程碑时刻，Sora打造全球新标杆

计算机行业周报：商汤日日新5.0大模型综合性能或超越GPT-4Turbo，端侧AI加速推进进行时