您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[德邦证券]:计算机行业点评:GPT-4o:大模型风向标,OpenAI重大更新 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业点评:GPT-4o:大模型风向标,OpenAI重大更新

信息技术2024-05-14陈涵泊、王思德邦证券测***
AI智能总结
查看更多
计算机行业点评:GPT-4o:大模型风向标,OpenAI重大更新

证券研究报告|行业点评 计算机 2024年05月14日 计算机 GPT-4o:大模型风向标, OpenAI重大更新 优于大市(维持) 证券分析师 投资要点: 陈涵泊 资格编号:S0120524040004 研究助理 邮箱:chenhb3@tebon.com.cn 王思 市场表现 邮箱:wangsi@tebon.com.cn 计算机沪深300 20% 10% 0% -10% -20% -29%2023-052023-092024-01 -39% -49% 事件:美国时间5月13日,OpenAI迎来重大更新。1)发布桌面版APP及更新UI后的ChatGPT,用户使用更加简单与自然;2)发布新的全能模型GPT-4o,实现跨模态即时响应,相比GPT-4Turbo,性价比显著提升的同时向用户免费开放。 桌面版及新UI界面的ChatGPT,实现极致的用户交互体验。OpenAI推出了适用于macOS的新ChatGPT桌面应用程序,该应用程序旨在无缝集成到用户的计算机上执行的任何操作。通过简单的键盘快捷键(Option+Space),用户便可向 ChatGPT提问,并支持直接在应用程序中截取屏幕截图进行讨论。与此同时,ChatGPT支持与计算机直接语音对话,并在未来将推出新音频和视频功能。发布后,OpenAI首先向Plus用户推出macOS应用程序,并将在未来几周内更广泛地提供该应用程序,同时计划在今年晚些时候推出Windows版本。此外,OpenAI还全面改版了UI界面,旨在提供更加友好和更具有对话性的用户交互体验。 GPT-4o实现毫秒级先进视觉音频理解,价格方面更具优势。GPT-4o为OpenAI 最新的旗舰型号,不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还 能提供同时理解文本、图像、音频等内容的多模态能力。此次发布会,GPT-4o具有如下亮点:1)毫秒级响应,实现即时语音对话。GPT-4o对音频输入的响应时间最短为232毫秒,平均为320毫秒,这与人类在对话中的响应时间相似;2)更先进的视觉与音频理解能力,智能感知语气与语态。GPT-4o在对话中可随时打断, 相关研究 1《. 迎峰度夏+市场化推进,虚拟电厂 并可根据场景生成多种语调,同时支持视频对话;3)API性价比显著提升。与GPT- 热度有望持续提升》,2024.5.134Turbo相比,GPT-4o速度提升2倍、成本却降低了50%,且速率限制提升5倍。 2《. DeeSeek-V2定价普惠或激活AI 4)免费提供给所有用户使用,付费用户则可以享受五倍的调用额度,团队和企业 应用发展》,2024.5.12 3.《特别国债或加速信创及行业信息化支出》,2024.5.12 4.《2024Q1总结:大盘股营收较稳健,AI景气兑现度高》,2024.5.95.《Vidu直接对标Sora,AI时代不可忽视视频革命》,2024.5.1 用户调用额度更高。 GPT-4o为端到端多模态模型,刷新SOTA实现性能飞跃。传统语音AI通常经过三步法(语音识别或ASR、LLM计划下一步语言、语音合成或TTS)实现对话功能,在这过程中会丢失很多信息且不能判断情绪变化。GPT-4o为跨模态端到端 训练新模型,意味着所有输入和输出都由同一神经网络处理,成为真正的多模态统一模型,带来性能的飞跃提升。具体来看:1)在传统基准测试中,GPT-4o在文本、推理和编码智能方面实现了GPT-4Turbo级别的性能,同时在多语言、音频和视觉功能上达到了新的高水位线;2)在端到端多模态架构支持下,GPT-4o多模态能力范围显著拓展,除了文本、图像等常用功能,GPT-4o还支持3D物品合成、文本转字体等多样化功能。 投资建议。我们认为,GPT-4o是多模态大模型走向成熟的重要标志,藉此未来有望推动产生更多现象级AI应用,并进一步提升推理算力需求。建议关注AI多模态:万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技等;AI算力:云赛智联、思特奇、恒为 科技、海光信息、寒武纪、景嘉微、工业富联、拓维信息、浪潮信息、四川长虹、神州数码等;AI+办公:金山办公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、汉得信息,用友网络等;AI+教育/电商/医疗:科大讯飞、佳发教育、鸥玛软件、盛通股份、值得买、焦点科技、小商品城、润达医 疗、嘉和美康、创业慧康等。 风险提示:AI技术迭代不及预期、产品落地不及预期、AI伦理风险等。 请务必阅读正文之后的信息披露和法律声明 内容目录 1.桌面版及新UIChatGPT,极致的用户交互体验4 2.GPT-4o实现毫秒级视觉音频理解,价格方面更具优势5 3.端到端多模态GPT-4o,刷新SOTA性能飞跃6 4.投资建议8 5.风险提示9 图表目录 图1:桌面版ChatGPT与用户屏幕截图进行讨论4 图2:桌面版ChatGPT支持语音对话4 图3:ChatGPT改版UI界面4 图4:GPT-4o在与技术人员实时对话5 图5:GPT-4o实时感知技术人员情绪5 图6:GPT-4o通过视频通过解决图片中数学问题5 图7:GPT-4o的API性价比显著提升6 图8:传统语音AI“语音转文本-问答-文本转语音”三步法模式6 图9:GPT-4o文本推理相较GPT-4Turbo有一定提升7 图10:与Whisper-v3相比,GPT-4o在多种语言的识别中表现优异7 图11:GPT-4o在音频翻译表现上达到新的高水准7 图12:在M3Exam基准测试中,GPT-4o都比GPT-4强8 图13:GPT-4o在视觉感知基准上实现了最先进的性能8 图14:GPT-4o实现3D物品合成8 图15:GPT-4o实现文本转字体8 事件:美国时间5月13日,OpenAI迎来两项重大更新。具体包括:1)发布桌面版APP及更新UI后的ChatGPT,用户使用更加简单与自然;2)发布新的全能模型GPT-4o,实现跨模态即时响应,相比GPT-4Turbo,性价比显著提 升的同时向用户免费开放。 1.桌面版及新UIChatGPT,极致的用户交互体验 ChatGPT发布桌面版APP,支持与计算机语音对话,提升用户与模型交互体验。对于免费和付费用户,OpenAI推出了适用于macOS的新ChatGPT桌面应用程序,该应用程序旨在无缝集成到用户的计算机上执行的任何操作。通过简 单的键盘快捷键(Option+Space),用户便可向ChatGPT提问,并支持直接在应用程序中截取屏幕截图进行讨论。与此同时,ChatGPT支持与计算机直接语音对话,并在未来将推出新音频和视频功能。 发布后,OpenAI首先向Plus用户推出macOS应用程序,并将在未来几周内更广泛地提供该应用程序,同时计划在今年晚些时候推出Windows版本。 图1:桌面版ChatGPT与用户屏幕截图进行讨论图2:桌面版ChatGPT支持语音对话 资料来源:OpenAI官网,德邦研究所资料来源:OpenAI官网,德邦研究所 此外,OpenAI还全面改版了UI界面,旨在提供更加友好和更具有对话性的外观,让它和用户的互动也变得更自然与简单。 图3:ChatGPT改版UI界面 资料来源:OpenAI官网,德邦研究所 2.GPT-4o实现毫秒级视觉音频理解,价格方面更具优势 GPT-4o(“o”代表“omni”)为OpenAI最新的旗舰型号,不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力。此次发布会,GPT-4o具有如下亮点: 1)毫秒级响应,实现即时语音对话。GPT-4o能够接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。使用语音模式与ChatGPT对话当中,GPT-3.5与GPT-4平均延迟分别为2.8s、5.4s,而GPT-4o对音频输入的响应时间最短为232毫秒,平均为320毫秒,这与人类在对话中的 响应时间相似。GPT-4o运行速度大大提升,迈向了更自然的人机交互。 图4:GPT-4o在与技术人员实时对话 资料来源:OpenAIYouTube官方账号,德邦研究所 2)更先进的视觉与音频理解能力,智能感知语气与语态。与现有模型相比,GPT-4o展现了出色的视觉和音频理解能力:首先,用户可在对话中随时打断;其次,可根据场景生成多种音调,带有人类般的情绪和情感;直接通过和AI视频通话让它在线解答各种问题。 图5:GPT-4o实时感知技术人员情绪图6:GPT-4o通过视频通过解决图片中数学问题 资料来源:OpenAIYouTube官方账号,德邦研究所资料来源:OpenAIYouTube官方账号,德邦研究所 3)API性价比显著提升。与GPT-4Turbo相比,GPT-4o速度提升2倍、成本却降低了50%,且速率限制提升5倍。 图7:GPT-4o的API性价比显著提升 资料来源:OpenAIYouTube官方账号,德邦研究所 4)免费提供给所有用户使用,付费用户则可以享受五倍的调用额度,团队和企业用户调用额度更高。OpenAI将“为尽可能多的人提供先进的AI工具”作为使命之一,每周有超1亿人使用ChatGPT。公司将在未来几周内开始向ChatGPT 免费用户推出更多智能和高级工具,在使用GPT-4o时,ChatGPT免费用户可免费访问如下功能:体验GPT-4级别的智能;从模型和网络获取响应;分析数据并创建图表;聊一聊用户的照片;上传文件以获取摘要、写作或分析帮助;使用GPTs和GPTStore;通过Memory构建更加有帮助的体验。 3.端到端多模态GPT-4o,刷新SOTA性能飞跃 传统语音AI通常经过三步法实现对话功能,在这过程中会丢失很多信息且不能判断情绪变化。三步法具体为:1)语音识别或ASR:音频到文本,类似Whisper;2)LLM计划下一步要说什么:文本1到文本2;3)语音合成或TTS:文本2到 音频,类似ElevenLabs或VALL-E。GPT-4便采用该模式,在这过程中不仅响应速度更慢而且丢失了大量信息,无法直接观察语调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感等。 图8:传统语音AI“语音转文本-问答-文本转语音”三步法模式 资料来源:爱范儿微信公众号,德邦研究所 GPT-4o为跨模态端到端训练新模型,意味着所有输入和输出都由同一神经网络处理,成为真正的多模态统一模型,带来性能的飞跃提升。除了响应速度更快之外,在传统基准测试中,GPT-4o在文本、推理和编码智能方面实现了GPT- 4Turbo级别的性能,同时在多语言、音频和视觉功能上达到了新的高水位线。 文本推理:GPT-4o在0-shotCOTMMLU(常识问题)上创下了88.7%的新高分。此外,在传统的5-shotno-CoTMMLU上,GPT-4o创下了87.2%的新高分。相较于GPT-4Turbo而言,GPT-4o文本推理能力有一定提升。 图9:GPT-4o文本推理相较GPT-4Turbo有一定提升 资料来源:OpenAI官网,德邦研究所(注:Llama3400b还在训练中) 多语言识别:与Whisper-v3相比,GPT-4o在多种语言的识别中表现优异,尤其是资源匮乏的语言。 音频翻译:GPT-4o在音频翻译表现上达到新的高水准,且在MLS基准测试中优于Whisper-v3。 图10:与Whisper-v3相比,GPT-4o在多种语言的识别中表现优异 图11:GPT-4o在音频翻译表现上达到新的高水准 资料来源:OpenAI官网,德邦研究所(注:越低值越优异)资料来源:OpenAI官网,德邦研究所 M3Exam测试:M3Exam基准测试既是多语言评估也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时还包括图形和图表。在所有语言的基准测试中,GPT-4o都比GPT-4