行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

计算机行业投资策略周报：近期生成式AI重要事件盘点

信息技术 2024-05-19 杨烨财通证券 LIHUYUN

这篇研报主要关注了生成式AI的发展和应用。海外方面，OpenAI推出了跨文本、视觉和音频端到端训练的新模型GPT-4o，谷歌发布了Gemini 1.5 Pro/Flash，苹果发布了搭载新一代M4芯片的新款ipad Pro，这些都标志着生成式AI在多模态交互方面的进步。国内方面，字节跳动发布了豆包大模型，定价较行业便宜了99.3%，中国移动也发布了新型智算中心采购订单，这些都表明了国内AI产业的发展趋势。投资建议方面，由于AI技术的迭代和商业化落地，建议投资者关注相关领域的投资机会。

投资评级:看好(维持) 核心观点证券研究报告最近12月市场表现计算机沪深300 上证指数 16% 5% -6% -17% -28% -40% 分析师杨烨 SAC证书编号：S0160522050001 yangye01@ctsec.com 联系人郑元昊 zhengyh03@ctsec.com 相关报告 1.《交通信息化景气度如何？》 2024-05-16 2.《2024年一季报总结：机构减仓，寻找低估值高成长》2024-05-12 3.《24Q1基金持仓总结：板块进入低配区间，中期集中度趋于分散，关注AI相关标的》2024-04-28 海外：生成式AI进入多模态交互新阶段：2024年5月13日，OpenAI推出跨文本、视觉和音频端到端训练的新模型GPT-4o，支持多模态输入输出，响应速度堪比人类，多模态让人与模型的交互更自然，具备广阔商业应用前景。2024年5月15日，GoogleI/O开发者大会召开，谷歌发布Gemini1.5Pro/Flash,同时推出GeminiLive，允许用户通过智能手机与Gemini对话且利用摄像头进行高效交互，此外谷歌还将Gemini的能力嵌入搜索、Gmail、Android谷歌地图等场景，深度提升用户体验。2024年5月7日，苹果发布了搭载新一代M4芯片的新款ipadPro，凭借每秒执行38万亿次运算，M4可为各种AI任务提速，将iPadOS的机器学习推上新维度，有望为端侧大模型提供强劲硬件支撑。 国内：豆包大模型定价较行业大幅下降，中移动百亿元级智算中心落地。2024年5月15日，字节跳动在2024春季火山引擎FORCE原动力大会上正式发布了字节跳动豆包大模型，以豆包通用模型pro-32k版为例，模型推理输入价格为0.0008元/千Tokens，根据公司数据，豆包定价较行业便宜了99.3%。2024年5月16日，中国移动2024至2025年新型智算中心采购订单中标候选人公示，7家供应商合计中标金额191亿元（不含税），均为华为昇腾服务器的整机硬件伙伴，国产算力景气度持续上行。 投资建议：详见报告正文。 风险提示：AI技术迭代不及预期的风险、商业化落地不及预期的风险、政策支持不及预期风险、全球宏观经济风险。请阅读最后一页的重要声明！内容目录 1海外：生成式AI进入多模态交互新阶段4 1.1Open发布GPT-4o，引领多模态AI交互变革4 1.2Gemini多模态能力进一步提升,深度嵌入各类场景9 1.3苹果新一代M4芯片，为AI提供强劲端侧硬件支撑12 2国内：豆包大模型定价较行业大幅下降，中移动百亿元级智算中心落地14 2.1字节发布豆包大模型，企业市场定价大幅低于行业水平14 2.2中移动智算中心百亿级大单落地，国产算力景气度持续上行15 3投资建议16 4风险提示16 图表目录图1.OpenAI发布全新多模态大模型GPT-4o（“o”代表“omni”）4 图2.GPT-4o在文本评价维度处于行业领先位置5 图3.GPT-4o显著提高了语音识别性能6 图4.GPT-4o在语音转录性能方面树立了新标杆6 图5.GPT-4o在M3Exam基准测试中比GPT-4更强7 图6.GPT-4o在视觉感知基准上实现了最先进的性能8 图7.借助GPT-4o进行视频讲座内容快速总结8 图8.借助GPT-4o进行字体设计8 图9.借助GPT-4o进行多线渲染生成机器人发短信图片9 图10.借助GPT-4o进行3D物体的渲染和合成9 图11.借助Gemini1.5新版本最多可容纳200万token10 图12.Gemini1.5Pro每1Mtokens价格3.5美金10 图13.Gemini1.5Flash每1Mtokens价格0.35美金10 图14.GeminiLive允许用户在手机上与其进行语音聊天11 图15.GeminiLive可通过手机摄像头与用户交互11 图16.Gemini将搜索结果进行聚合信息提炼展示11 图17.谷歌在Android中提供圈选搜索功能11 图18.Gemini可在Google地图上自动生成该地点的描述和分析12 图19.苹果发布的新款iPadPro搭载新一代M4芯片13 图20.苹果M4芯片较上一代iPadPro搭载的M2芯片AI能力大幅提升13 图21.字节跳动发布豆包大模型14 图22.豆包大模型企业市场价格较行业大幅下降99.3%15 图23.中国移动新型智算中心标包1公式中标候选人16 图24.本次中标的供应商均为华为昇腾整机硬件伙伴16 1海外：生成式AI进入多模态交互新阶段 1.1Open发布GPT-4o，引领多模态AI交互变革多模态大模型GPT-4o引领AI交互变革。2024年5月13日，OpenAI推出新旗舰模型GPT-4o，可实时对音频、视觉和文本进行推理。 多模态输入输出：GPT-4o（“o”代表“omni”）可以接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合输出，让人机交互更自然。 响应速度堪比人类：GPT-4o可在最短232毫秒内作出音频响应，平均响应时间为320毫秒，与人类响应时间相似，较先前语音模式与ChatGPT对话时，平均延迟2.8秒（GPT-3.5）和5.4秒（GPT-4），响应速度大幅提升。 跨文本、视觉和音频端到端训练的新模型：在GPT-4o之前，为实现语音模式与Chatgpt对话，需要先音频转文字经GPT-3.5或GPT-4处理后，再转为音频输出，过程中会丢失音调、对话者、噪音等信息，同时也无法输出笑声、歌唱等，而GPT-4o是跨文本、视觉和音频端到端训练的新模型，所有的输入和输出都由同一神经网络处理。图1.OpenAI发布全新多模态大模型GPT-4o（“o”代表“omni”）数据来源：OpenAI官网、财通证券研究所 GPT-4o在传统基准测试中全面领先。GPT-4o在文本、推理和编码智能方面实现了GPT-4Turbo级别的性能，同时在多语言、音频和视觉功能上设立了新标杆。文本评价：GPT-4o在0-shotCOTMMLU（常识问题）上创下了88.7%的新高分。在传统的5-shotno-CoTMMLU上，GPT-4o创下了87.2%的新高分。图2.GPT-4o在文本评价维度处于行业领先位置数据来源：OpenAI官网、财通证券研究所音频ASR性能：GPT-4o比Whisper-v3显著提高了所有语言的语音识别性能。图3.GPT-4o显著提高了语音识别性能数据来源：OpenAI官网、财通证券研究所音频转录性能：GPT-4o在语音转录性能方面树立了新标杆，并且在MLS基准测试中优于Whisper-v3。图4.GPT-4o在语音转录性能方面树立了新标杆数据来源：OpenAI官网、财通证券研究所多语言和视觉评估：M3Exam基准测试既是多语言评估也是视觉评估，由来自其他国家标准化测试的多项选择题组成，有时还包括图形和图表。在所有语言的基准测试中，GPT-4o都比GPT-4更强。图5.GPT-4o在M3Exam基准测试中比GPT-4更强数据来源：OpenAI官网、财通证券研究所视觉理解评估：GPT-4o在视觉感知基准上实现了最先进的性能，所有视觉评估都是0-shot，其中MMMU、MathVista和ChartQA作为0-shotCoT。图6.GPT-4o在视觉感知基准上实现了最先进的性能数据来源：OpenAI官网、财通证券研究所 GPT-4o模型具备广阔商业应用前景。GPT-4o模型的发布有望加速推动AI技术的商业化进程，为AI技术在教育、娱乐、医疗等领域应用提供了更广阔空间。在教育领域，GPT-4o可以通过个性化的交互方式，为学生提供更加定制化的学习体验；在娱乐行业，它可以用来生成更加逼真的游戏角色和故事情节，提升用户的沉浸感；在医疗领域，GPT-4o的多模态理解能力，可以辅助医生进行更准确的诊断和治疗计划的制定。图7.借助GPT-4o进行视频讲座内容快速总结图8.借助GPT-4o进行字体设计数据来源：OpenAI官网，财通证券研究所数据来源：OpenAI官网，财通证券研究所图9.借助GPT-4o进行多线渲染生成机器人发短信图片图10.借助GPT-4o进行3D物体的渲染和合成数据来源：OpenAI官网，财通证券研究所数据来源：OpenAI官网，财通证券研究所 GPT-4o开放免费试用，商用API价格下降一半。OpenAI将GPT-4o的文本和图像功能向用户开放免费试用，并将在未来几周内向ChatGPTPlus用户推出新版语音模式GPT-4o。对开发人员来说，OpenAI允许其在API直接访问GPT-4o的文本和视觉模型，与GPT-4Turbo相比，GPT-4o速度提高2倍，价格降低一半，速率限制提高5倍，之后OpenAI会向合作伙伴推出GPT-4o的新音频和视频功能。 1.2Gemini多模态能力进一步提升,深度嵌入各类场景 GoogleI/O开发者大会召开，多模态能力进一步提升。2024年5月15日，GoogleI/O开发者大会召开，Gemini能力进一步提升。 Gemini1.5Pro：谷歌旗舰模型。Gemini可以分析比以前更长的文档、代码库、视频和音频记录，谷歌目前的旗舰模型Gemini1.5Pro新版本最多可以容纳200万token，是之前的两倍，每1Mtokens价格为3.5美金。图11.借助Gemini1.5新版本最多可容纳200万token 数据来源：ForesightNews，财通证券研究所 Gemini1.5Flash：小型高效模型。对于要求较低的应用，谷歌推出了公共预览版Gemini1.5Flash，是专为“窄”、“高频”生成AI工作负载而构建的小型高效模型。Flash拥有多达200万个token上下文窗口，与Gemini1.5Pro一样是多模态的，可以分析音频、视频、图像和文本，每1Mtokens价格为0.35美金。图12.Gemini1.5Pro每1Mtokens价格3.5美金图13.Gemini1.5Flash每1Mtokens价格0.35美金数据来源：ForesightNews，财通证券研究所数据来源：ForesightNews，财通证券研究所 GeminiLive：多模态交互新体验。某种程度上来说，GeminiLive是GoogleLens （谷歌长期用于分析图像和视频的计算机视觉平台）和GoogleAssistant（谷歌跨手机、智能音箱和电视的人工智能驱动、语音生成和识别虚拟助手）的融合，利用生成式AI新技术来提供卓越的图像分析，并将这些技术与增强的语音引擎相结合，以实现更一致、情感表达和现实的多轮对话。 语音交互：GeminiLive是一个实时语音界面，具有极其强大的多模态功能和长上下文能力，让用户在智能手机上与Gemini进行“深入”的语音聊天，在机器人说话时打断Gemini并提要求，模型可做出快速调整。 视频交互：GeminiLive可以通过智能手机摄像头拍摄的照片或视频来查看用户的周围环境并对其做出反应，比如将摄像头指向计算机代码的一部分，Live可以解释该代码的作用，或者当被问及一副眼镜可能在哪里时， Live可以说出它最后一次“看到”眼镜的位置。 虚拟教练：GeminiLive可被设计为某种虚拟教练，帮助用户排练活动、集思广益等。例如，Live可以作为职业生涯发展导师为用户互动讲解在找工作或实习时应该具备哪些技能，或者作为演讲训练师为用户提供演讲建议。图14.GeminiLive允许用户在手机上与其进行语音聊天图15.GeminiLive可通过手机摄像头与用户交互数据来源：ForesightNews，财通证券研究所数据来源：ForesightNews，财通证券研究所 Gemini深度嵌入各类场景。Google在I/O开发者大会上还重点展示了如何将

点击免费查看完整报告

计算机行业投资策略周报：近期生成式AI重要事件盘点

你可能感兴趣

计算机行业投资策略周报：生成式AI产业趋势跟踪指南

计算机行业投资策略周报：生成式AI开启新篇章，算力需求景气加速

计算机行业投资策略周报：AI赛道的重要更新及长期展望

计算机行业投资策略周报：《生成式人工智能服务管理暂行办法》逐条解读-更严谨、更开放、更包容

投资策略：近期宏观与资本市场重要事件研判

【东吴计算机】生成式AI暂行管理办法发布点评事件：7月13日，

脑机接口上周部分公司大涨近期行业重要事件较多继续看好脑机接口投资机会

计算机行业研究周报：继续看生成式AI在C端的场景落地

计算机行业先进科技主题周报：英伟达发布H200，生成式AI算力设施再演进

计算机行业周报：生成式AI迈入监管时代，重视商密机遇