行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

OpenAI上新GPT-4o，人机交互革新带来可用性提升

信息技术 2024-05-14 浦俊懿,陈超东方证券 LIHUYUN

计算机行业动态跟踪：OpenAI发布GPT-4o，人机交互革新

引言：

计算机行业研究关注了OpenAI于2024年5月13日发布的旗舰模型GPT-4o。此模型增强了语音交互功能，提升了视频理解能力，标志着人机交互的革新，有望加速AI相关应用的落地。

关键亮点：

GPT-4o：OpenAI发布的最新模型，专注于增强语音交互效率与效果。相较于之前的模型，GPT-4o能更快响应音频输入，降低平均响应时间至320毫秒，接近人类响应速度。
跨模态能力提升：GPT-4o不仅可以分析屏幕信息和镜头视频，还能直接生成文本、音频和图像的任意组合输出，实现了从单一模态到跨模态的飞跃。
实用性增强：通过提升视觉理解和跨模态交互能力，GPT-4o的实用度与使用频率有望大幅提高，尤其是对于需要语音、视觉结合的应用场景。
低延迟响应：GPT-4o的低延迟特性进一步加大了对推理算力的需求，对于国产模型而言，这将促使算力升级以适应未来更高的性能标准。

投资建议：

AI应用：推荐关注中科创达、虹软科技、金山办公、泛微网络、新致软件、彩讯股份、科大讯飞、万兴科技等公司。
AI算力：建议关注云赛智联、中科曙光、海光信息、寒武纪-U、润泽科技、华铁应急等公司。
其他工具：推荐关注星环科技-U。

风险提示：

技术落地风险：AI应用的实际落地可能受到技术进展的限制。
政策监管风险：AIGC创作内容的版权及监管政策的不确定性可能影响应用推广。

结论：

GPT-4o的发布不仅革新了人机交互方式，加速了AI应用的落地进程，还对算力需求提出了更高要求，为相关领域带来了新的发展机遇。投资者应重点关注相关公司的发展动向。

核心观点 ⚫5月13日，OpenAI发布了最新旗舰模型GPT-4o。GPT-4o增强了语音交互功能，最快232毫秒响应音频输入，平均响应时间为320毫秒，与人类相似，视频理解能力也大大增强。GPT-4o的速度相比于GPT-4Turbo快两倍、成本降低50%，速率限制高5倍。GPT-4o已面向包括免费用户在内的所有用户开放使用，为每个用户都提供了GPT-4级别的智能，并将推出桌面版ChatGPT，可以被轻松集成到用户的工作流程中。GPT-4o可以接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。浦俊懿021-63325888*6106pujunyi@orientsec.com.cn ⚫GPT-4o通过端到端模型实现语音交互效率与效果大幅提升。过去的GPT模型通过3个独立模型依次执行来实现语音交互，即语音转文字、文字生成和文字转语音，因此平均延迟较长，也会因此丢失语音中的大量信息，比如音调、背景音、歌声以及情感等。而此次GPT-4o通过端到端模型进行训练，输入输出均由同一神经网络处理，因此速度快，且能够理解语音中所包含的背景和情绪等信息，有助于更有效地实现人机互动。执业证书编号：S0860514050004陈超021-63325888*3144chenchao3@orientsec.com.cn执业证书编号：S0860521050002 ⚫跨模态交互能力增强，大模型实用度与使用频率有望大幅提升。此前GPT在文本交互方面的能力较强，但交互效率较低、交互模式受限。语音一直都是人类交互的重要手段，在很多场景下语音交互也比文字输入更加自然，而视频中也包含着更多文字难以准确描述的信息。我们认为，人机交互一直都是推动计算产业发展的重要推动力，回顾历史，从命令行输入到图形界面输入，推动了个人PC的普及，而从按键交互到触摸屏交互，也是智能手机的重磅革新。此次GPT-4o增加语音功能、提升视频理解能力并实现跨模态推理、推理延迟大幅度降低，让大模型的实用度与使用频率得到大大提升与拓展。覃俊宁qinjunning@orientsec.com.cn宋鑫宇songxinyu@orientsec.com.cn ⚫跨模态能力增加，有助于大模型在C端和B端应用加速落地。我们认为，跨模态能力的突破，对大模型的应用落地所产生的推动效果，将远大于单模态模型性能的提升。我们可以预期，各类硬件，如手机、PC、耳机、音箱等硬件将快速拥抱跨模态模型，提供更智能化的交互与服务，个人智能助理将逐步落地。而新型便携式智能硬件、人形机器人等设备，其实用性也将得到大大提升。而在企业端，大模型在销售、客服以及日常办公中的应用也有望得到进一步提升。 ⚫低延迟响应速度进一步加大对推理算力的需求。GPT-4o在OpenAI的优化下达到了惊人的低时延，拉高了用户对于推理延迟的标准门槛。目前国产模型方面还没有模型的交互能达到如此低的标准，我们认为，随着用户对于延迟的要求不断提升，对于推理侧算力的需求将进一步提升。投资建议与投资标的我们认为，OpenAI推出GPT-4o有望加速AI相关应用落地，同时对于算力的需求也会随之大幅提升。 ⚫AI应用：建议关注中科创达(300496，买入)、虹软科技(688088，未评级)、金山办公(688111，增持)、泛微网络(603039，买入)、新致软件(688590，未评级)、彩讯股份(300634，买入)、科大讯飞(002230，买入)、万兴科技(300624，未评级)等公司 ⚫AI算力：建议关注云赛智联(600602，未评级)、中科曙光(603019，买入)、海光信息(688041，买入)、寒武纪-U(688256，未评级)、润泽科技(300442，未评级)、华铁应急(603300，买入)等公司 ⚫其他工具：星环科技-U(688031，未评级) 风险提示技术落地不及预期；政策监管风险目录 OpenAI发布新模型GPT-4o，跨模态能力大幅加强.......................................4 人机交互可用性进一步提升，助力AI应用加速落地.......................................6 投资建议与投资标的......................................................................................7 风险提示........................................................................................................7 图表目录图1：OpenAI发布GPT-4o..........................................................................................................4图2：GPT-4o可以直接分析镜头视频..........................................................................................4图3：GPT-4o可以分析屏幕信息.................................................................................................4图4：GPT-4o能力探索-品牌logo合成........................................................................................5图5：GPT-4o能力探索-文字排版图生成.....................................................................................5图6：GPT-4o的文本推理能力和GPT-4 Turbo同水平................................................................5图7：GPT-4o的视觉理解能力领先..............................................................................................5图8：GPT-4o协助进行面试准备.................................................................................................6图9：GPT-4o协助数学辅导........................................................................................................6 OpenAI发布新模型GPT-4o，跨模态能力大幅加强 5月13日，OpenAI发布了最新旗舰模型GPT-4o。GPT-4o增强了语音交互功能，最快232毫秒响应音频输入，平均响应时间为320毫秒，与人类相似，视频理解能力也大大增强。GPT-4o的速度相比于GPT-4 Turbo快两倍、成本降低50%，速率限制高5倍。目前GPT-4o已面向包括免费用户在内的所有用户开放使用，为每个用户都提供了GPT-4级别的智能，并将推出桌面版ChatGPT，可以被轻松集成到用户的工作流程中。GPT-4o可以接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。 GPT-4o通过端到端模型实现语音交互效率与效果大幅提升。过去的GPT模型通过3个独立模型依次执行来实现语音交互，即语音转文字、文字生成和文字转语音，因此平均延迟较长，比如GPT-3.5的平均延迟为2.8秒，GPT-4为5.4秒，也会因为转文字丢失语音中的大量信息，如无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感等。而此次GPT-4o通过端到端模型进行训练，输入输出均由同一神经网络处理，因此进一步降低延迟，且能够理解语音中所包含的背景和情绪等信息，有助于更有效地实现人机互动。根据OpenAI发布会演示，GPT-4o能够分辨出对话者的情绪和语气，并能够在自己的语音中增加不同的情感。 GPT-4o视觉能力也显著提升。在发布会现场OpenAI展示了GPT-4o的语音+视觉的交互功能，在视频镜头下写下方程式，让ChatGPT给出提示。在桌面端，GPT-4o支持的ChatGPT能够直接分析屏幕图表以及代码。在OpenAI的官网上给出了更多GPT-4o能力探索的案例，包括生成3D对象、文字排版、品牌logo图像合成等。图2：GPT-4o可以直接分析镜头视频图3：GPT-4o可以分析屏幕信息数据来源：OpenAI，东方证券研究所 GPT-4o的能力超越了目前主流前沿模型。根据OpenAI评估，GPT-4o在文本、推理和编码方面实现了GPT-4 Turbo级别的性能，同时在视觉能力方面创下了新纪录，领先GPT-4Turbo、Gemini、ClaudeOpus等前沿模型。图6：GPT-4o的文本推理能力和GPT-4Turbo同水平图7：GPT-4o的视觉理解能力领先数据来源：OpenAI，东方证券研究所人机交互可用性进一步提升，助力AI应用加速落地跨模态交互能力增强，大模型实用度与使用频率有望大幅提升。此前GPT在文本交互方面的能力较强，但交互效率较低、交互模式受限。语音一直都是人类交互的重要手段，在很多场景下语音交互也比文字输入更加自然，而视频中也包含着更多文字难以准确描述的信息。我们认为，人机交互一直都是推动计算产业发展的重要推动力，回顾历史，从命令行输入到图形界面输入，推动了个人PC的普及，而从按键交互到触摸屏交互，也是智能手机的重磅革新。此次GPT-4o增加语音功能、提升视频理解能力并实现跨模态推理、推理延迟大幅度降低，让大模型的实用度与使用频率得到大大提升与拓展。跨模态能力增加，有助于大模型在C端和B端应用加速落地。我们认为，跨模态能力的突破，对大模型的应用落地所产生的推动效果，将远大于单模态模型性能的提升。我们可以预期，各类硬件，如手机、PC、耳机、音箱等硬件将快速拥抱跨模态模型，提供更智能化的交互与服务，个人智能助理将逐步落地。而新型便携式智能硬件、人形机器人等设备，其实用性也将得到大大提升。从应用角度，C端应用如教育、游戏等领域的AI应用体验将迎来革新，而在企业端，大模型在销售、客服以及日常办公中的应用也有望得到进一步提升。数据来源：OpenAI，东方证券研究所低延迟响应速度进一步加大对推理算力的需求。GPT-4o在OpenAI的优化下达到了惊人的低时延，拉高了用户对于推理延迟的标准门槛。目前国产模型方面还没有模型的交互能达到如此低的标准，我们认为，随着用户对于延迟的要求不断提升，对于推理侧算力的需求将进一步提升。投资建议与投资标的我们认为，OpenAI推出GPT-4o有望加速AI相关应用落地，同时对于算力的需求也会随之大幅提升。 ⚫AI应用：建议关注中科创达(300496，买入)、虹软科技(688088，未评级)、金山办公(688111，增持)、泛微网络(603039，买入)、新致软件(688590，未评级)、彩讯股份(300634，买入)、科大讯飞(002230，买入)、万兴科技(300624，未评级)等公司⚫AI算力：建议关注云赛智联(600602，未评级)、中科曙光(603019，买入)、海光信息(688041，买入)、

点击免费查看完整报告

OpenAI上新GPT-4o，人机交互革新带来可用性提升

计算机行业动态跟踪：OpenAI发布GPT-4o，人机交互革新

引言：

关键亮点：

投资建议：

风险提示：

结论：

你可能感兴趣

国君计算机|OpenAI发布GPT-4o,AI交互迎来革新

计算机行业事件快评：OpenAI发布GPT-4o，AI交互迎来革新

全球科技行业周报：OpenAI发布新模型GPT-4o mini，关注信创、自动驾驶等新质生产力

通信周跟踪：OpenAI新模型或大幅提升推理能力，萝卜快报带来对智驾能力的新关注

人工智能周报（24年第20周）：OpenAI发布GPT-4o，Kimi加入付费选项

传媒互联网周报：OpenAI发布GPT-4o，豆包主力模型调用成本大幅下降

传媒行业周观察：OpenAI发布GPT-4o mini，看好开发者生态景气度向上

电子行业2025年年度投资策略：AI革新人机交互，智能终端百舸争流，行业迈入估值扩张大年

传媒行业周报：阿里开源端到端全模态大模型，OpenAI全量开放GPT-4o图像生成能力

传媒互联网行业周报：OpenAI发布GPT-4o生图功能，DeepSeek-V3完成版本升级