热门搜索：

中泰科技：AI大模型群星闪耀，解锁全新体验

信息技术2024-05-20孙行臻中泰证券罗***

Open AI：多模态生成模型GPT-4o发布，带来全新多模态交互体验。 1）价格：GPT-4o发布，现阶段对所有用户提供有限次免费试用机会，付费可无限使用；后期将在ChatGPT Plus中面向合作伙伴推出带有GPT-4o的新版本语音模式G PT-4o alpha。 2）性能：GPT-4o性能显著提高，成本降低，GPT-4o的运行速度是GPT-4 Turbo的两倍，价格仅为其一半且能实现五倍的速率限制。文本、推理、编码智能方面的性能与GPT-4 Turbo持平，多语言、音频、视觉功能上有显著突破。 3）应用能力：具备实时的视频理解能力和多模态的集成能力，推动实时AI视频通话；视觉能力显著提升；实时推理响应，能在232毫秒内响应音频输入，平均响应时间为320毫秒；语音交互能力提升，语种和情绪理解加强。谷歌I/O大会发布AI全家桶，AI模型、多模态生成模型、AI延展产品、硬件全面开花。 1）AI模型：升级版大模型Gemini1.5 Pro支持100万tokens输入输出，API版本支持150万以上tokens输入输出，私人预览版上下文窗口则已达200万tokens；轻量模型Gemini 1.5 Flash支持100万tokens上下文，且性价比高，成本低至0.35美元/百万Tokens。 2）多模态生成模型：文生视频大模型VEO能制作1分钟以上的1080p视频，未来可能直接引入YouTube Shorts；文生图模型Imagen 3生成图形视觉干扰减少，开源模型Gemma2具备270亿参数，性能提升两倍。 3）AI延展产品：Project Astra智能助手具备摄像视频识别功能，Gemini Live可以实现流畅的对话功能，对标GPT-4o；端侧Gemini Nano也支持多模态支。 4）硬件：第六代Trillium TPU新发布，性能和能源效率显著提升，计算性能提高4.7倍，HBM容量和带宽增加一倍，ICI带宽增加一倍，预计于2024年底推出。字节：自研大模型“豆包”亮相，低价策略推出大模型家族，应用侧落地成果显著。 1）性能：9款豆包大模型发布，具备多模态能力，基于场景对模型能力做垂直细分，通过字节跳动内部50+业务场景实践验证，每日千亿级Token大使用量持续打磨，提供多模态能力；豆包大模型身处第二梯队，计算方面创下高分，长文本处理差距较大但。 2）价格优势：面通用模型Pro的价格设定为小于32K窗口尺寸，0.008元/千tok ens，低于行业均价99.3%；128K窗口尺寸0.005元/千tokens，比行业价格低95. 8%，低价策略驱动豆包大模型迅速抢占C段市场； 3）应用：AI对话助手“豆包”位列国内AIGC应用榜一，语音功能是亮点；企业级AI应用开发平台“扣子”支持1万+生态插件。投资标的：国产大模型新玩家持续入局，应用层落地有望加速。随着多模态模型的“理解能力”和“实时交互能力”不断加强，AI在C端创意软件类应用和营销类应用以及B端金融、教育、医疗、法律等领域的落地相对更加容易，掌握行业know-how的B端应用厂商目前依旧具备模型的选择权，AI应用侧建议关注：金山办公、科大讯飞、万兴科技等。风险提示：技术迭代不及预期风险；行业竞争加剧风险；研究报告中使用的公开资料可能存在信息滞后或更新不及时的风险。请务必阅读正文之后的重要声明部分 1.Open AI：新一代多模态生成模型GPT-4o问世 1.1新模型：GPT-4o正式发布，全新的人机交互体验 GPT-4o（“o”代表“omni”即“全能”）发布，实现新型人机交互模式。北京时间5月14日凌晨，OpenAI在首次春季新品发布会上推出首个多模态生成模型GPT-4o，同步推出桌面App及新款UI。GPT-4o可以实时对音频、视觉以及文本进行反馈，同时在反应速度方面取得显著进步，模型生成能力的提升标志着AI在朝着实现更为自然的人机交互模式进步。目前向所有用户可限次数免费开放，后期将向合作伙伴推出GPT-4o alpha。 1）目前GPT-4o对所有用户免费开放，免费可限次数使用，付费可无限使用。对于免费用户，可以体验GPT-4级别智能；用户可以从模型和网络获取响应；分析数据并创建图表；和拍摄的照片对话；上传文件以获取总结、写作或分析方面的帮助；Plus用户提供高达5倍的消息限制。2）在未来几周内，将在ChatGPT Plus中推出带有GPT-4o的新版本语音模式GPT-4o alpha，并通过API向一小部分值得信赖的合作伙伴推出对GPT-4o更多新的音频和视频功能。 1.2性能：降本增效，多语言、音频、视觉功能大幅提高 GPT-4o性能显著提高，成本降低。GPT-4oAPI的运行速度是GPT-4 Turbo API的两倍，价格仅为其一半且能实现五倍的速率限制。在复杂的prompt集方面，GPT-4o的编码能力相比于OpenAI之前的最佳模型，性能提升显著。图表1：GPT-4o API性能提高在多项基准测试中，GPT-4o在文本、推理和编码智能方面的性能与GPT-4 Turbo相匹配，而在多语言、音频和视觉功能上实现了大幅度提高。1）在推理方面，GPT-4o在5-shot MMLU（常识问题）上创下了88.7%的高分。2）在语音识别方面，GPT-4o相比Whisper-v3显著提高了所有语言的语音识别性能，在小语种方面提升尤为明显。3）GPT-4o在语音翻译方面取得了新的SOTA水平，并且在MLS基准测试中优于Whisper-v3。在多语言和视觉评估基准M3Exam基准测试中，在所有的语言基准测试方面，GPT-4o均比GPT-4取得更高得分。图表2：GPT-4o文本识别能力提升图表3：GPT-4o语音识别性能显著提升图表4：GPT-4o语音翻译评估图表5：GPT-4o多语言和视觉评估 1.3应用：实时视频对话+情绪理解+桌面助手多模态集成推动实时AI视频通话，视觉能力显著提升。1）实时的视频理解能力和多模态的集成能力：GPT-4o是迈向更自然的人机交互的一步，集成所有模态，在GPT-4的基础上改进了文本、视觉和音频方面的能力，它接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合输出，以实现和AI实时视频通话。2）视觉能力提升：能够快速回答有关图片或桌面屏幕的问题，图像识别和理解能力提升。比如GPT-4o可以将一首诗的排版转化为手写样式；一个工程师在纸上现写的方程，让ChatGPT不是直接给答案，而是解释每步如何做。图表6：GPT-4o将诗排版为手写体图表7：GPT-4o边聊天边解答手写数学问题实时推理响应，输入输出使用同一神经网络。GPT-4o最快可以在232毫秒内响应音频输入，平均响应时间为320毫秒，在此之前，ChatGPT的平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。1）此前语音响应模式：由三个独立的模型组成，分别负责将音频转换为文本，接收文本并输出文本（GPT-3.5或GPT-4），再将文本转换回音频，GPT-4会丢失大量信息，例如模型无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。2）GPT-4o语音响应模式：由文本、视觉和音频端到端训练而成，所有输入和输出由同一神经网络处理，能在提高响应速度的同时保留大量信息。技术侧的具体实现方式是将音频直接映射到音频作为一级模态，并将视频实时传输到transformer，属于数据和系统优化方面的突破。语音交互能力提升，语种和情绪理解加强。1）可以随时打断：GPT-4o能进行自然的对话，可以随时打断AI的话，不用等它说完就可以继续下一轮对话。2）能模拟不同的情感表达：模型能够充分理解人类的情感，如兴奋、友好甚至讽刺，使得语音交互更加自然和人性化。3）GPT-4o支持多达50种语言：显著提高了非英语语言的性能，这意味着模型具有更广泛的应用范围。请务必阅读正文之后的重要声明部分-8- GPT-4o在英语文本和代码上的性能与GPT-4 Turbo的性能相匹配，但在非英语文本上的性能显著提高。图表8：GPT-4o语音翻译评估图表9：GPT-4o多语言和视觉评估图表10：视频聊天识别情绪图表11：GPT-4o多语种翻译同声传译 ChatGPT新增桌面客户端，大幅提高生产力。在春季发布会中，OpenAI发布了桌面版本的程序和更新后的UI，相较网页版，桌面版本客户端使用更为简单自然。桌面客户端可以实现与电脑的深度融合，将可以直接获取电脑正在浏览的网页与文件内容、正在处理的办公内容，并针对这些内容对问题进行解答。通过客户端应用，ChatGPT将实现实时交流协助代码阅读，指导用户对代码进行修改。图表12：ChatGPT桌面客户端图表13：ChatGPT桌面客户端协助代码阅读请务必阅读正文之后的重要声明部分-10- 2.谷歌：I/O大会发布AI全家桶，模型+产品+硬件全面开花 AI巨头谷歌于美国时间5月14日举行I/O大会，发布几十款Google和AI结合的新产品，包括AI模型、多模态生成模型、AI延展产品、硬件等。图表14：谷歌发布和新升级十余款AI产品 2.1 AI模型：Gemini时代到来，Token数量不断突破上限升级版大模型Gemini1.5 Pro：用户多+安卓和IOS上线+音频理解能力+同时高效处理不同文件类型，私人预览版支持200万tokens输入输出。1）截请务必阅读正文之后的重要声明部分-11- 至目前，短短3个月内就有100万+ Gemini Advanced注册；有20亿用户产品全部使用Gemini；超过150万开发者使用Gemini。2）支持100万tokens输入输出，约等于3000PDF、1小时视频、30000行代码；API版本支持150万以上tokens输入输出；Gemini 1.5 Pro私人预览版上下文窗口则已达200万tokens。3）GeminiAPP已经可以在安卓和IOS双平台上线。 4）首次支持音频理解能力。Gemini 1.5 Pro最多可以一次处理9.5小时的音频，能理解音频背后的语调和情感。5）可以一次上传多个不同类型的文件进行处理，可以识别使用几千种常见行为。图表15：Gemini advanced处理复杂问题图表16：Gemini1.5 Pro API版本tokens输入输出图表17：Gemini1.5 Pro整合用户数量轻量模型Gemini 1.5 Flash：速度快+参数少+性价比高，支持100万tokens上下文。1）模型专为大规模服务设计，成本低至0.35美元/百万tokens。 2）它拥有更高的效率、更低的时延，支持100万和200万tokens两个版本。3）通过API提供的速度最快的Gemini模型，在具备突破性的长文本能力的情况下，它针对大规模地处理高容量、高频次任务进行了优化，部署起来更具性价比。4）Gemini1.5 Flash在总结摘要、聊天应用、图像和视频字幕生成以及从长文档和表格中提取数据等方面表现出色。图表18：Gemini 1.5 Flash支持100万tokens上下文 2.2多模态模型：文生视频模型剑指Sora，文生图像性能提升请务必阅读正文之后的重要声明部分-13- 文生视频大模型VEO：性能强+镜头语言准确、优美+市场广阔。1）Veo生成的视频相比其他文生视频大模型能够更快更好、视频时间一致性更强、视频生成的控制能力更强，Veo能制作1分钟以上的1080p视频。2）涵盖多种电影和视觉风格，具备高级的自然语言和视觉语义理解能力，能准确呈现细节并捕捉情感基调。3）Google已邀请电影制片人和创作者试用Veo，Veo将作为VideoFX的私人预览提供给特定创作者，所有人可申请注册候补名单，未来可能直接引入YouTube Shorts。图表19：文生视频大模型VE

点击免费查看完整报告

你可能感兴趣

中泰科技：AI大模型群星闪耀，解锁全新体验

你可能感兴趣

【国海海外&科技】美图公司：深化与三星合作，打造手机端全新的AI图像编辑体验

2024年六大猜想：科技群星闪耀时

2024生成式AI白皮书：五大关键要素解锁生成式AI全新机遇

医药生物行业周报：2020年CSCO大会群星闪耀，24张图表详细梳理亮点荟萃

AI系列跟踪（42）：Apple Intelligence定义全新智能体验，美图开启“AI工作流”新阶段