行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

计算机行业点评：GPT-4o：大模型风向标，OpenAI重大更新

信息技术 2024-05-14 陈涵泊,王思德邦证券测试专用号2高级版

计算机行业2024年5月14日行业点评

概览

本次报告聚焦于OpenAI于2024年5月13日发布的一系列重大更新，包括桌面版ChatGPT应用程序和全新UI界面的推出，以及新一代全能模型GPT-4o的发布。GPT-4o不仅实现了毫秒级的视觉音频理解，且在价格方面更具优势，同时提供了免费使用选项。

市场表现与相关研究

报告概述了计算机行业的整体市场表现，并引用了近期的相关研究，如《迎峰度夏+市场化推进，虚拟电厂热度有望持续提升》、《DeeSeek-V2定价普惠或激活AI应用发展》等。

投资要点

桌面版ChatGPT与新UI界面：
- 提供了更加自然的用户交互体验，支持直接在应用程序中截取屏幕截图讨论，以及与计算机直接语音对话。
- 改版后的UI界面更加友好，提升了对话体验的自然性。
GPT-4o模型：
- 实现了毫秒级的视觉音频理解，相比GPT-4 Turbo在性价比上显著提升。
- 具备免费使用选项，付费用户则享有更高的调用额度，团队和企业用户拥有更高额度。
性能飞跃：
- 展示了在文本推理、多语言识别、音频翻译等多个领域的卓越性能，刷新了SOTA基准。

投资建议

推荐关注AI多模态领域的企业，如万兴科技、虹软科技、中科创达等。
强调AI算力领域，推荐云赛智联、恒为科技、工业富联等。
针对AI+办公领域，推荐金山办公、万兴科技等。
在AI+教育/电商/医疗领域，建议关注科大讯飞、佳发教育等。

风险提示

AI技术迭代的风险。
产品落地进度不确定性。
AI伦理风险。

结论

本次OpenAI的更新为多模态AI模型的发展带来了重要进展，特别是在提升用户体验、增强模型功能和优化成本效益方面。随着GPT-4o的发布，预计将进一步推动AI应用的创新和发展，同时也带来了对投资者的特定关注点和风险考虑。

事件：美国时间5月13日，OpenAI迎来重大更新。1）发布桌面版APP及更新UI后的ChatGPT，用户使用更加简单与自然；2）发布新的全能模型GPT-4o，实现跨模态即时响应，相比GPT-4 Turbo，性价比显著提升的同时向用户免费开放。桌面版及新UI界面的ChatGPT，实现极致的用户交互体验。OpenAI推出了适用于macOS的新ChatGPT桌面应用程序，该应用程序旨在无缝集成到用户的计算机上执行的任何操作。通过简单的键盘快捷键（Option + Space），用户便可向ChatGPT提问，并支持直接在应用程序中截取屏幕截图进行讨论。与此同时，ChatGPT支持与计算机直接语音对话，并在未来将推出新音频和视频功能。发布后，OpenAI首先向Plus用户推出macOS应用程序，并将在未来几周内更广泛地提供该应用程序，同时计划在今年晚些时候推出Windows版本。此外，OpenAI还全面改版了UI界面，旨在提供更加友好和更具有对话性的用户交互体验。 GPT-4o实现毫秒级先进视觉音频理解，价格方面更具优势。GPT-4o为OpenAI最新的旗舰型号，不仅提供与GPT-4同等程度的模型能力，推理速度还更快，还能提供同时理解文本、图像、音频等内容的多模态能力。此次发布会，GPT-4o具有如下亮点：1）毫秒级响应，实现即时语音对话。GPT-4o对音频输入的响应时间最短为232毫秒，平均为320毫秒，这与人类在对话中的响应时间相似；2）更先进的视觉与音频理解能力，智能感知语气与语态。GPT-4o在对话中可随时打断，并可根据场景生成多种语调，同时支持视频对话；3）API性价比显著提升。与GPT-4 Turbo相比，GPT-4o速度提升2倍、成本却降低了50%，且速率限制提升5倍。 4）免费提供给所有用户使用，付费用户则可以享受五倍的调用额度，团队和企业用户调用额度更高。 GPT-4o为端到端多模态模型，刷新SOTA实现性能飞跃。传统语音AI通常经过三步法（语音识别或ASR、LLM计划下一步语言、语音合成或TTS）实现对话功能，在这过程中会丢失很多信息且不能判断情绪变化。GPT-4o为跨模态端到端训练新模型，意味着所有输入和输出都由同一神经网络处理，成为真正的多模态统一模型，带来性能的飞跃提升。具体来看：1）在传统基准测试中，GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉功能上达到了新的高水位线；2）在端到端多模态架构支持下，GPT-4o多模态能力范围显著拓展，除了文本、图像等常用功能，GPT-4o还支持3D物品合成、文本转字体等多样化功能。投资建议。我们认为，GPT-4o是多模态大模型走向成熟的重要标志，藉此未来有望推动产生更多现象级AI应用，并进一步提升推理算力需求。建议关注AI多模态：万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技等；AI算力：云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉微、工业富联、拓维信息、浪潮信息、四川长虹、神州数码等；AI+办公：金山办公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、汉得信息，用友网络等；AI+教育/电商/医疗：科大讯飞、佳发教育、鸥玛软件、盛通股份、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业慧康等。风险提示：AI技术迭代不及预期、产品落地不及预期、AI伦理风险等。事件：美国时间5月13日，OpenAI迎来两项重大更新。具体包括：1）发布桌面版APP及更新UI后的ChatGPT，用户使用更加简单与自然；2）发布新的全能模型GPT-4o，实现跨模态即时响应，相比GPT-4 Turbo，性价比显著提升的同时向用户免费开放。 1.桌面版及新UI ChatGPT，极致的用户交互体验 ChatGPT发布桌面版APP，支持与计算机语音对话，提升用户与模型交互体验。对于免费和付费用户，OpenAI推出了适用于macOS的新ChatGPT桌面应用程序，该应用程序旨在无缝集成到用户的计算机上执行的任何操作。通过简单的键盘快捷键（Option + Space），用户便可向ChatGPT提问，并支持直接在应用程序中截取屏幕截图进行讨论。与此同时，ChatGPT支持与计算机直接语音对话，并在未来将推出新音频和视频功能。发布后，OpenAI首先向Plus用户推出macOS应用程序，并将在未来几周内更广泛地提供该应用程序，同时计划在今年晚些时候推出Windows版本。图1：桌面版ChatGPT与用户屏幕截图进行讨论图2：桌面版ChatGPT支持语音对话此外，OpenAI还全面改版了UI界面，旨在提供更加友好和更具有对话性的外观，让它和用户的互动也变得更自然与简单。图3：ChatGPT改版UI界面 2.GPT-4o实现毫秒级视觉音频理解，价格方面更具优势 GPT-4o（“o”代表“omni”）为OpenAI最新的旗舰型号，不仅提供与GPT-4同等程度的模型能力，推理速度还更快，还能提供同时理解文本、图像、音频等内容的多模态能力。此次发布会，GPT-4o具有如下亮点： 1）毫秒级响应，实现即时语音对话。GPT-4o能够接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。使用语音模式与ChatGPT对话当中，GPT-3.5与GPT-4平均延迟分别为2.8s、5.4s，而GPT-4o对音频输入的响应时间最短为232毫秒，平均为320毫秒，这与人类在对话中的响应时间相似。GPT-4o运行速度大大提升，迈向了更自然的人机交互。图4：GPT-4o在与技术人员实时对话 2）更先进的视觉与音频理解能力，智能感知语气与语态。与现有模型相比，GPT-4o展现了出色的视觉和音频理解能力：首先，用户可在对话中随时打断；其次，可根据场景生成多种音调，带有人类般的情绪和情感；直接通过和AI视频通话让它在线解答各种问题。图5：GPT-4o实时感知技术人员情绪图6：GPT-4o通过视频通过解决图片中数学问题 3）API性价比显著提升。与GPT-4 Turbo相比，GPT-4o速度提升2倍、成本却降低了50%，且速率限制提升5倍。图7：GPT-4o的API性价比显著提升 4）免费提供给所有用户使用，付费用户则可以享受五倍的调用额度，团队和企业用户调用额度更高。OpenAI将“为尽可能多的人提供先进的AI工具”作为使命之一，每周有超1亿人使用ChatGPT。公司将在未来几周内开始向ChatGPT免费用户推出更多智能和高级工具，在使用GPT-4o时，ChatGPT免费用户可免费访问如下功能：体验GPT-4级别的智能；从模型和网络获取响应；分析数据并创建图表；聊一聊用户的照片；上传文件以获取摘要、写作或分析帮助；使用GPTs和GPT Store；通过Memory构建更加有帮助的体验。 3.端到端多模态GPT-4o，刷新SOTA性能飞跃传统语音AI通常经过三步法实现对话功能，在这过程中会丢失很多信息且不能判断情绪变化。三步法具体为：1）语音识别或ASR：音频到文本，类似Whisper； 2）LLM计划下一步要说什么：文本1到文本2；3）语音合成或TTS：文本2到音频，类似ElevenLabs或VALL-E。GPT-4便采用该模式，在这过程中不仅响应速度更慢而且丢失了大量信息，无法直接观察语调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感等。图8：传统语音AI“语音转文本-问答-文本转语音”三步法模式 GPT-4o为跨模态端到端训练新模型，意味着所有输入和输出都由同一神经网络处理，成为真正的多模态统一模型，带来性能的飞跃提升。除了响应速度更快之外，在传统基准测试中，GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉功能上达到了新的高水位线。文本推理：GPT-4o在0-shot COT MMLU（常识问题）上创下了88.7%的新高分。此外，在传统的5-shot no-CoTMMLU上，GPT-4o创下了87.2%的新高分。相较于GPT-4 Turbo而言，GPT-4o文本推理能力有一定提升。图9：GPT-4o文本推理相较GPT-4 Turbo有一定提升多语言识别：与Whisper-v3相比，GPT-4o在多种语言的识别中表现优异，尤其是资源匮乏的语言。音频翻译：GPT-4o在音频翻译表现上达到新的高水准，且在MLS基准测试中优于Whisper-v3。图10：与Whisper-v3相比，GPT-4o在多种语言的识别中表现优异图11：GPT-4o在音频翻译表现上达到新的高水准 M3Exam测试：M3Exam基准测试既是多语言评估也是视觉评估，由来自其他国家标准化测试的多项选择题组成，有时还包括图形和图表。在所有语言的基准测试中，GPT-4o都比GPT-4更强。视觉理解：GPT-4o在视觉感知基准上实现了最先进的性能。具体来看，GPT-4o在MMMU测试中分数达到69.1，而GPT-4 Turbo、Gemini1.0 Ultra、Gemini 1.5 Pro、Claude Opus分别为63.1、59.4、58.5、59.4。图12：在M3Exam基准测试中，GPT-4o都比GPT-4强图13：GPT-4o在视觉感知基准上实现了最先进的性能此外，在端到端多模态架构支持下，GPT-4o多模态能力范围显著拓展。除了文本、图像等常用功能，GPT-4o还支持3D物品合成、文本转字体等多样化功能。图14：GPT-4o实现3D物品合成图15：GPT-4o实现文本转字体 4.投资建议我们认为，GPT-4o是多模态大模型走向成熟的重要标志，藉此未来有望推动产生更多现象级AI应用，并进一步提升推理算力需求。建议关注： AI多模态：万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技等； AI算力：云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉微、工业富联、拓维信息、浪潮信息、四川长虹、神州数码等； AI+办公：金山办公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、汉得信息，用友网络等； AI+教育/电商/医疗：科大讯飞、佳发教育、鸥玛软件、盛通股份、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业慧康等。 5.风险提示 AI技术迭代不及预期：技术为AI能力之基，技术发展不及预期将严重制约AI应用开发速度。产品落地不及预期：产品落地不及预期将影响商业变现进程。 AI伦理风险：AI在人机耦合过程中可能产生伦理问题，带来相应风险。

点击免费查看完整报告

计算机行业点评：GPT-4o：大模型风向标，OpenAI重大更新

计算机行业2024年5月14日行业点评

概览

市场表现与相关研究

投资要点

投资建议

风险提示

结论

你可能感兴趣

传媒行业周报：阿里开源端到端全模态大模型，OpenAI全量开放GPT-4o图像生成能力

TMT行业月报：多个厂商推出AI手机；OpenAI发布强沟通能力人工智能大模型GPT-4o；出海业务成游戏公司发展重点

互联网传媒行业周报-周观点：OpenAI发布最新旗舰大模型GPT-4o，字节跳动大模型首次全员亮相

计算机行业事件快评：OpenAI发布GPT-4o，AI交互迎来革新

计算机行业：OpenAI发布重大更新，聚焦大语言模型API降费升级

计算机行业AI+专题系列（十八）：OpenAI发布GPT-4o：AI应用或加速落地

计算机行业点评：OpenAI o1 大模型推理的划时代革命

计算机行业点评：首批Azure OpenAI服务落地万科，大模型商业化进程持续加速

计算机行业周报：商汤发布流式多模态大模型日日新5.5，国内首次全面对标GPT-4o

国君计算机|OpenAI发布GPT-4o,AI交互迎来革新