您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[信达证券]:大模型进程焦点:OpenAI春季发布会及谷歌开发者大会要点归纳 - 发现报告
当前位置:首页/行业研究/报告详情/

大模型进程焦点:OpenAI春季发布会及谷歌开发者大会要点归纳

信息技术2024-05-16冯翠婷信达证券D***
AI智能总结
查看更多
大模型进程焦点:OpenAI春季发布会及谷歌开发者大会要点归纳

证券研究报告行业研究行业事项点评投资评级上次评级冯翠婷传媒互联网及海外首席分析师执业编号:S1500522010001联系电话:17317141123邮箱:fengcuiting@cindasc.com信达证券股份有限公司CINDASECURITIESCO.,LTD北京市西城区闹市口大街9号院1号楼邮编:100031 大模型进程焦点:OpenAI春季发布会及谷歌开发者大会要点归纳 2024年5月16日 事件:北京时间5月14日凌晨,OpenAI发布了最新模型GPT-4o,GPT-4o (“o”代表“omni”)接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在短至232毫秒的时间内响 应音频输入,平均为320毫秒,与人类的响应时间相似。它在英语文本和代码上的性能与GPT-4Turbo的性能相匹配,在非英语文本上的性能显著提高。与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。 GPT-4o的文本和图像功能5月14日已经开始在ChatGPT中推出。OpenAI正在免费套餐中提供GPT-4o,并向Plus用户提供高达5倍的消息限制,未来几周将在ChatGPTPlus中推出新版语音模式GPT-4o的alpha版。开发人员现在还可以在API中访问GPT-4o作为文本和视觉模型。与GPT-4Turbo相比,GPT-4o速度提高2倍,价格降低一半,速率限制提高5倍。OpenAI计划在未来几周内在API中向一小部分值得信赖的合作伙伴推出对GPT-4o新音频和视频功能的支持。 在OpenAI发布会上,团队展示了GPT-4o的多个功能。包括实时语音交流能力,几乎无延迟,达到真人聊天的水平;可以识别用户的语音情绪,语音有情感;可以使用不同语言(英语、意大利语)和多人同时交互;在语音的同时可以与视频实时交互;实时交流,协助阅读代码,指导编程;实时视频聊天,并识别情绪等。 北京时间5月15日凌晨,GoogleI/O开发者大会正式开幕。公司更新了Gemini1.5Pro,引入了1.5Flash较小型号的Gemini版本,同时也增加了两个新的Gemma模型。Gemini1.5Pro:普通版本配备了100万token上下文窗口,而Gemini1.5Pro将在GoogleAIStudio或适用于GoogleCloud客户的VertexAI中的候补名单中拥有200万个代币上下文窗口。在智能代理领域,谷歌展示了其最新的人工智能代理GoogleAstra项目,可与用户实现多模态交互。 多模态领域,谷歌推出全新视频生成模型Veo,可生成各种电影和视觉风格的高质量1080p分辨率视频,时间可以超过一分钟;升级了文生图新模型Imagen3,对图像细节的把控度更高;发布了人工智能音乐生成模型Lyria。以及在AI搜索功能、照片问询功能均实现了一定程度的升级迭代。 点评: OpenAI打造全新多模态融合、高拟人情感、实时低延迟交互的“个人超级AI语音助手”,推出GPT-4o全新旗舰人工智能模型。根据传统基准测试,GPT-4o在文本、推理和编码智能方面实现了GPT-4Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。GPT-4o能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出,输入输出均由同一神经网络处理。同时,在用户情绪感知和语义理解上,GPT-4o也展现得较为出色,用户可以在对话中随时打断,并且可以根据用户需要改变语音语调来满足用户的情绪变化,有望逐渐成为个人用户在终端设备上的具备强拟人化、可交互性高、高智商、高情商的私人助理管家。 图1:GPT-4o文本+图像输入 资料来源:OpenAI官网,信达证券研发中心 图2:GPT-4o文本+音频输入 资料来源:OpenAI官网,信达证券研发中心 图3:两个GPT-4o产品在自动对话并且唱歌 资料来源:OpenAI官网,信达证券研发中心 图4:GPT-4o文本评价 资料来源:OpenAI官网,信达证券研发中心 免费提供给所有用户使用,付费用户享受5倍调用额度,大模型本身的技术迭代带来的成本降低有望使个人或企业用户深度受益。每周都有超过一亿人使用ChatGPT。OpenAI将在未来几周内开始向ChatGPT 免费用户推出更多智能和高级工具。使用GPT-4o时,ChatGPT免费用户现在可以访问以下功能:体验GPT-4大模型的回答;获取来自模型和互联网的回复;分析数据并创建图表;聊聊用户拍摄的图片;上传 文件并提供帮助、总结、写作或分析;发现并使用GPT和GPT商店;使用Memory打造更有帮助的体验。 图5:上传数据文件,GPT-4o进行数据分析 资料来源:OpenAI官网,信达证券研发中心 图6:GPTs和GPTs有关应用推荐 资料来源:OpenAI官网,信达证券研发中心 OpenAI推出新的桌面应用程序,简化用户的工作流程。对于免费和付费用户,OpenAI推出了适用于macOS的新ChatGPT桌面应用程序, 该应用程序旨在无缝集成到用户在计算机上执行的任何操作。通过简单的键盘快捷键(Option+Space),用户既可向ChatGPT提问,还可以直接在应用程序中截取屏幕截图并进行讨论。同时,用户可以直接从计算机与ChatGPT进行语音对话,目前暂时提供ChatGPT发布时提供的语音模式,新的音频和视频功能将在未来推出。同时,从发布会当日开始,OpenAI将向Plus用户推出适配于macOS的应用程序,并将在未来几周内更广泛地提供该应用程序,Windows版本计划在今年晚些时候推出。应用程序简化了ChatGPT的界面外观,整体UI设计更加友好具备交互性。 图7:适用于macOS的新ChatGPT桌面应用程序 资料来源:OpenAI官网,信达证券研发中心 图8:应用程序简化了ChatGPT的界面外观,整体UI设计更加友好具备交互性 资料来源:OpenAI官网,信达证券研发中心 北京时间5月15日凌晨,GoogleI/O开发者大会正式开幕,在生成式人工智能AI竞争中,从谷歌在本次开发者大会上发布的内容可以看出其在AI领域的积淀和步伐愈发稳健深厚。2023年12月,谷歌发布了Gemini1.0;2024年2月,谷歌发布了Gemini1.5Pro,是第一个具有100万tokens的模型,同时也推出了轻量级的开源模型Gemma。在本次谷歌开发者大会上,公司更新了Gemini1.5Pro,引入了1.5Flash较小型号的Gemini版本,同时也增加了两个新的Gemma模型。 Gemini1.5Pro:普通版本配备了100万token上下文窗口,而Gemini1.5Pro将在GoogleAIStudio或适用于GoogleCloud客户的VertexAI中的候补名单中拥有200万个代币上下文窗口。Gemini1.5Flash针对较窄或高频的任务进行了优化,达到较快的响应时间速度,更具备成本效益,同时上下文窗口也突破到了100万token。 图9:Gemini1.5Pro升级到200万Tokens上下文窗口 资料来源:谷歌官网,信达证券研发中心 谷歌即将于2024年6月推出Gemma2大模型,模型参数量提高至270亿,其性能优于一些尺寸超过其两倍的模型,并且可以在GPU或VertexAI中的单个TPU主机上高效运行。 图10:Gemma2附带27B参数 资料来源:谷歌官网,信达证券研发中心 人工智能代理GoogleAstra项目:作为智能体,需要像人类一样理解和响应复杂且动态的世界,并吸收并记住所看到和听到的内容,以了解上下文并采取行动。它还需要主动、可教和个性化,以便用户可以自然地与它交谈,没有滞后或延迟。2024年谷歌开发者大会上,DeepMind团队展示了多模态理解和实时对话的能力,希望构建一个在日常生活中有用的通用代理。和OpenAI刚发布的AI语音助手GPT-4o相比,Astra在相应的延时、语气情绪的感知以及可打断性来看还有提升空间。 图11:GoogleAstraProject通用代理 资料来源:谷歌官网,信达证券研发中心 谷歌推出全新视频生成模型Veo。可生成各种电影和视觉风格的高质量1080p分辨率视频,时间可以超过一分钟,在视频细节上更能清晰把握创作者的意图。提供了较强的创意控制水平,并理解“延时拍摄”或“风景空 中拍摄”等电影术语。Veo创建一致且连贯的镜头,因此人物、动物和物体在整个镜头中移动逼真。Veo以谷歌多年的生成视频模型工作为基础,包括生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere—结合架构、缩放法则和其他新颖技术来提高质量和输出分辨率。 图12:Google全新视频生成模型Veo 资料来源:谷歌官网,信达证券研发中心 谷歌升级了文生图新模型Imagen3。Imagen3在图像生成的细节、光照等方面表现较优,和之前的文生图模型相比,其分散注意力的视觉伪影要少很多,Imagen3可以更好理解自然语言、提示背后的意图并融合较长提示中的 微小细节,同时更好控制图像一致性。 图13:Google升级了文生图模型Imagen3 资料来源:谷歌官网,信达证券研发中心 谷歌发布了人工智能音乐生成模型Lyria。与YouTub以及一些出色的音乐家、歌曲作者和制作人合作去开发一套名为MusicAISandbox的音乐AI工具。这些工具旨在为创造力开辟一个新的游乐场,让人们从头开始创建新 的乐器部分,以新的方式改变声音等。 图14:Google发布AI音乐生成模型Lyria 资料来源:谷歌官网,信达证券研发中心 同时,谷歌针对谷歌搜索、AskPhoto等功能均做出了一定程度的升级更新。从发布会后开始,谷歌将在美国向用户推出经过全面改造的“AI概览”的搜索体验,即在搜索框下面单独展现出AIOverview的内容来给用户更好的服务响应,满足用户提出新类型的问题、更长、更复杂的查询,甚至使用照片进行搜索,并获得网络所提供的最佳信息。以及将在24年夏天推出“询问照片”功能,满足用户搜索照片信息的需求。 建议关注:1)AI陪伴+IP:汤姆猫、上海电影、奥飞娱乐、华策影视、中文在线;2)AI+搜索:昆仑万维、三六零等;3)AI+影视:华策影视、慈文传媒、上海电影;4)AI+IP(涉及版权、算料等):芒果超媒、中广天择、 华数传媒、中文在线等;5)AI+出版/教育:南方传媒、皖新传媒等;6)AI+游戏:巨人网络、恺英网络、神州泰岳、三七互娱、姚记科技、盛天网络等;7)特别提示:微软系/语音助手类标的,紫天科技、易点云、万兴科技、视觉中国、科大讯飞、商汤(港股)等。 风险提示:生成式人工智能模型进展迭代不及预期、AI应用进展不及预期 研究团队简介 冯翠婷,信达证券传媒互联网及海外首席分析师,北京大学管理学硕士,香港大学金融学硕士,中山大学管理学学士。2016-2021年任职于天风证券,覆盖互联网、游戏、广告、电商等多个板块,及元宇宙、体育二级市场研究先行者(首篇报告作者),曾获21年东方财富Choice金牌分析师第一、Wind金牌分析师第三、水晶球奖第六、金麒麟第七,20年Wind金牌分析师第一、第一财经第一、金麒麟新锐第三。 凤超,信达证券传媒互联网及海外团队高级研究员,本科和研究生分别毕业于清华大学和法国马赛大学,曾在腾讯担任研发工程师,后任职于知名私募机构,担任互联网行业分析师。目前主要负责海外互联网行业的研究,拥有5年的行研经验,对港美股市场和互联网行业有长期的跟踪覆盖。主要关注电商、游戏、本地生活、短视频等领域。 刘旺,信达证券传媒互联网及海外团队高级研究员。北京大学金融学硕士,北京邮电大学计算机硕士,北京邮电大学计算机学士,曾任职于腾讯,一级市场从业3年,创业5年(人工智能、虚拟数字人等),拥有人工智能、虚拟数字人、互联网等领域的产业经历。 李依