您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国联证券]:计算机行业专题研究:AI大模型成果不断涌现,AGI或将到来 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业专题研究:AI大模型成果不断涌现,AGI或将到来

信息技术2024-05-18黄楷、陈安宇国联证券L***
计算机行业专题研究:AI大模型成果不断涌现,AGI或将到来

人机交互体验优化,AGI或将到来 北京时间5月14日,OpenAI发布了新一代多模态AI大模型GPT-4o,可接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出,响应时间与人类相似,人机交互效果更为自然。北京时间5月15日,谷歌召开年度开发者I/O大会,Gemini模型全面升级,发布文生图模型Imagen 3、视频生成模型Veo,此外全面赋能谷歌应用,包括AI搜索、Project Astra、Gemini Live等。 国产大模型能力对标GPT-4,成本快速下降 腾讯、阿里、字节跳动、商汤、幻方等近期发布了AI产品进展,国产大模型快速迭代升级,性能持续提升,创新成果不断涌现,如商汤日日新SenseNova5.0综合性能全面对标GPT-4 Turbo,DeepSeek发布全球最强开源MoE模型,阿里云通义千问2.5OpenCompass得分追平GPT-4Turbo。 商业化进程持续推进,如月之暗面推出Kimi+,MiniMax上架C端产品“海螺AI”。大模型成本快速下降,如智谱GLM-3 Turbo模型调用价格调整为0.001元/千tokens,豆包主力模型定价0.0008元/千tokens。 多模态能力提升、商业化推进、价格下降是行业发展趋势 AIGC的四个核心要素:数据、算力、模型和应用,正在逐步实现正反馈,呈现三大发展趋势。(1)多模态能力提升:大模型向原生多模态发展,带来更好的人机交互体验,拓展更广泛的应用场景;(2)商业化进程加速推进:各大AI厂商加速推进toC端产品、toB端服务的落地,利用AI能力重塑原有产品线;(3)大模型使用价格快速下降:随着模型、算力等的发展,大模型输入、输出价格快速下降,为商业化更好落地奠定了基础。 建议关注算力、端侧开发、办公软件、行业信息化等方面机遇 (1)算力基础设施建设机遇:大模型商用化进程不断推进,将提升算力需求,建议关注中科曙光、紫光股份、浪潮信息等;(2)端侧AI软件开发机遇:端侧设备将是人机交互的重要中介,带动软件开发机遇,建议关注中科创达等;(3)生产力工具革新机遇:大模型有望重塑员工工作流程、企业组织架构等,建议关注金山办公、用友网络、泛微网络等;(4)行业信息化创新机遇:大模型在行业业务系统方面的应用场景不断扩展,建议关注恒生电子、宇信科技、中控技术、卫宁健康等。 风险提示:AI技术发展演进不及预期;商业化进程不及预期;法律政策监管风险;行业竞争加剧等。 1.人机交互体验优化,AGI或将到来 1.1GPT-4o迈向更自然的人机交互 GPT-4o实现原生多模态。在GPT-4o之前,用户使用语音模式与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4),其实现是通过三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。北京时间5月14日凌晨,OpenAI发布了新一代多模态人工智能(AI)大模型GPT-4o,跨文本、视觉和音频端到端训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。 图表1:传统语音模式与ChatGPT对话的实现方式 人机交互效果更为自然。GPT-4o可接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,与人类的响应时间相似。根据基准测试,GPT-4o在文本、推理和编码智能方面实现了GPT-4Turbo级别的性能,同时在多语言、音频和视觉功能上达到了新的水平。 图表2:GPT-4o在视觉感知基准上实现了最先进的性能 免费用户可体验GPT-4o的文本和图像功能。在ChatGPT网页端,免费用户可以体验GPT-4o的文本和图像功能,不过额度有限;付费用户的额度是免费用户的5倍。 与GPT-4 Turbo相比,GPT-4o速度提高2倍,价格降低一半,速率限制提高5倍。 官方计划在未来几周内在API中向一小部分值得信赖的合作伙伴推出对GPT-4o新音频和视频功能的支持。此外ChatGPT推出桌面端应用,目前已经有Mac原生应用可安装,Windows客户端预计会在晚些时候推出。 图表3:免费用户可体验GPT-4o的文本和图像功能 1.2谷歌全面升级基础大模型及应用 Gemini模型全面升级。北京时间5月15日,谷歌召开了年度开发者I/O大会,发布了一系列AI驱动的产品和功能。Gemini模型全面升级:(1)升级版Gemini 1.5 Pro上下文长度突破200万token,超过目前所有商用大模型;(2)轻量级模型Gemini 1.5 Flash发布,相较于旧有模型,实现了低延迟响应并降低使用成本,100万tokens只要0.35美元;(3)Gemini Nano将具备多模态能力。多模态模型方面:(1)谷歌发布文生图模型Imagen3模型,能够更准确理解图像的文本提示词,并且生成的图片更具创造性和细节;(2)发布视频生成模型Veo,可以根据文本提示创建大约一分钟长的1080p视频剪辑,可捕捉不同的视觉和电影风格,包括风景和延时镜头,并对已生成的镜头进行编辑和调整。 图表4:谷歌发布了一系列AI驱动的产品和功能 Gemini全面赋能谷歌应用。(1)AI搜索:功能包括搜索摘要、多步推理功能、在搜索中做计划、以及用视频提问等;(2)Project Astra:通过手机和AR眼镜的联合使用,AI能够在目之所及的范围内完成和用户的实时交互。(3)Gemini Live:用户可以通过手机和Gemini直接进行语音交互,Gemini Live还能与谷歌日历、任务、备忘录等应用无缝连接。 2.国产大模型能力对标GPT-4,成本快速下降 国内互联网头部企业、人工智能创新企业、垂直领域厂商等重视AI产业发展趋势,持续进行研发投入,腾讯、阿里、字节跳动、商汤、幻方等近期发布了AI产品进展。国产大模型快速迭代升级,性能持续提升,创新成果不断涌现,商业化进程持续推进,成本快速下降。 2.1商汤日日新:综合性能全面对标GPT-4 Turbo 4月23日,商汤科技带来全新升级的“日日新SenseNova 5.0”大模型,具备更强的知识、数学、推理及代码能力,综合性能全面对标GPT-4 Turbo,并在主流客观评测上达到或超越GPT-4 Turbo。 商汤日日新提升能力主要方面:采用混合专家架构(MoE),激活少量参数就能完成推理。且推理时上下文窗口达到200K左右。基于超过10TB tokens训练、覆盖数千亿量级的逻辑型合成思维链数据。商汤AI大装置SenseCore算力设施与算法设计的联合调优。 自然语言能力上,创意写作、推理以及总结能力均大幅提升。文生图能力有较大提升。多模态和数据分析能力上,商汤多模态大模型的图文感知能力达到全球领先水平,在权威综合基准测试MMBench中综合得分排名首位;支持高清长图的解析和理解以及文生图交互式生成,还可以实现复杂的跨文档知识抽取及总结问答展示。 图表5:商汤日日新模型综合基准测试综合得分排名首位 2.2幻方量化Deepseek:全球最强开源MoE模型 5月6日,幻方量化正式开源第二代MoE模型:DeepSeek-V2。该模型中文综合能力(AlignBench)开源模型中最强:与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队。英文综合能力(MT-Bench)处于第一梯队:英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B处于同一梯队,超过最强MoE开源模型Mixtral8x22B。 知识、数学、推理、编程等榜单结果位居前列。开源模型支持128K上下文,对话官网/API支持32K上下文。该模型使用236B参数量,32K上下文(对话/API),费用上采取1元/百万输入Tokens,2元/百万输出Tokens,同时兼容OpenAI API接口。 图表6:Deepseek-V2媲美GPT4能力 2.3阿里云通义千问:OpenCompass得分追平GPT-4Turbo 5月9日,在北京阿里云AI智领者峰会上,阿里云正式发布通义千问2.5,并开源通义千问1100亿参数模型。2.5版模型的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%,中文能力更是持续领先业界。 通义发布1100亿参数开源模型Qwen1.5-110B,该模型在MMLU、TheoremQA、GPQA等基准测评中超越了Meta的Llama-3-70B模型;在HuggingFace推出的开源大模型排行榜Open LLM Leaderboard上,Qwen1.5-110B冲上榜首,再度证明通义开源系列业界最强的竞争力。 图表7:阿里云通义千问模型矩阵 2.4腾讯混元:拥抱开源,产业实用 5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源。混元文生图大模型是首个采用中文原生开发,同时支持中英文输入和理解的DiT架构模型,参数规模达到15亿。模型采用了与sora模型相同的DiT架构,使其不仅适用于文本生成图像,也能作为视频等多模态视觉内容生成的基础。 5月17日,腾讯云生成式AI产业应用峰会在北京召开,公布大模型研发、应用产品的系列进展。腾讯混元大模型能力持续升级,多个版本模型hunyuan-pro、hunyuan-standard、hunyuan-lite通过腾讯云对外开放,满足企业客户、开发者在不同场景下的模型需求,落地最优性价比模型方案。腾讯云大模型知识引擎、图像创作引擎、视频创作引擎三大工具发布,打造大模型时代原生工具链,通过PaaS服务简化数据接入、模型精调、应用开发流程,助力企业更高效、简单地用大模型开发AI原生应用,快速接入生产场景。 图表8:腾讯混元模型服务通过腾讯云对外开放 2.5月之暗面Kimi:AI Agent进一步改善用户应用端体验 5月6日,月之暗面旗下kimi智能助手迎来大更新推出Kimi+。Kimi+首批上线23个智能体,分别是官方推荐、办公提效、辅助写作、社交娱乐、生活实用5大领域。在输入框里打“@”,就可以召唤出用户所需要的工具人Kimi+。Kimi与应用端的联动进一步推动了AI应用的发展,从而给客户带来更好的应用体验。 图表9:Kimi+智能助手 2.6智谱AI:价格大幅下调,GLM系列将迎来更新 GLM-3 Turbo模型调用价格由5元/百万tokens调整为1元/百万tokens,最新价格相当于0.001元/千tokens。公司即将推出GLM-3 Turbo Batch批处理API(异步任务处理),适用于无需实时响应场景,包括效果评估、数据批处理等任务,价格为1元/200万token。公司对于新注册的用户,赠送额度从500万tokens提升至2500万tokens(包含2000万入门级额度和500万企业级额度)。 企业版GLM-4/GLM-4V实现了视觉语言特征的深度融合,支持视觉问答、图像字幕、视觉定位、复杂目标检测等各类图像理解任务。在上海人工智能实验室发布的大模型开源开放评测体系司南(OpenCompass 2.0)中,GLM-4综合排名第二,仅次于GPT-4 Turbo。 图表10:智谱大模型标准版定价 2.7Minimax:上线产品对接C端用户,大模型应用端持续拓展 5月15日,大模型公司MiniMax宣布上架C端产品“海螺AI”,背后接入了MiniMax自研的多模态大模型,包括万亿参数MoE大语言模型abab6.5,语音大模型和图像大模型。该产品支持输入200ktokens的上下文长度,1秒内处理近3万字的文本。 可以进行书籍、长篇报告、学术论文等长篇内容的阅读、分析和文本写作。 图表11:Minimax发