您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:OpenAI上新GPT-4o,人机交互革新带来可用性提升 - 发现报告

OpenAI上新GPT-4o,人机交互革新带来可用性提升

信息技术2024-05-14浦俊懿、陈超东方证券L***
AI智能总结
查看更多
OpenAI上新GPT-4o,人机交互革新带来可用性提升

核心观点 ⚫5月13日,OpenAI发布了最新旗舰模型GPT-4o。GPT-4o增强了语音交互功能,最快232毫秒响应音频输入,平均响应时间为320毫秒,与人类相似,视频理解能力也大大增强。GPT-4o的速度相比于GPT-4Turbo快两倍、成本降低50%,速率限制高5倍。GPT-4o已面向包括免费用户在内的所有用户开放使用,为每个用户都提供了GPT-4级别的智能,并将推出桌面版ChatGPT,可以被轻松集成到用户的工作流程中。GPT-4o可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。 浦俊懿021-63325888*6106pujunyi@orientsec.com.cn ⚫GPT-4o通过端到端模型实现语音交互效率与效果大幅提升。过去的GPT模型通过3个独立模型依次执行来实现语音交互,即语音转文字、文字生成和文字转语音,因此平均延迟较长,也会因此丢失语音中的大量信息,比如音调、背景音、歌声以及情感等。而此次GPT-4o通过端到端模型进行训练,输入输出均由同一神经网络处理,因此速度快,且能够理解语音中所包含的背景和情绪等信息,有助于更有效地实现人机互动。 执业证书编号:S0860514050004陈超021-63325888*3144chenchao3@orientsec.com.cn执业证书编号:S0860521050002 ⚫跨模态交互能力增强,大模型实用度与使用频率有望大幅提升。此前GPT在文本交互方面的能力较强,但交互效率较低、交互模式受限。语音一直都是人类交互的重要手段,在很多场景下语音交互也比文字输入更加自然,而视频中也包含着更多文字难以准确描述的信息。我们认为,人机交互一直都是推动计算产业发展的重要推动力,回顾历史,从命令行输入到图形界面输入,推动了个人PC的普及,而从按键交互到触摸屏交互,也是智能手机的重磅革新。此次GPT-4o增加语音功能、提升视频理解能力并实现跨模态推理、推理延迟大幅度降低,让大模型的实用度与使用频率得到大大提升与拓展。 覃俊宁qinjunning@orientsec.com.cn宋鑫宇songxinyu@orientsec.com.cn ⚫跨模态能力增加,有助于大模型在C端和B端应用加速落地。我们认为,跨模态能力的突破,对大模型的应用落地所产生的推动效果,将远大于单模态模型性能的提升。我们可以预期,各类硬件,如手机、PC、耳机、音箱等硬件将快速拥抱跨模态模型,提供更智能化的交互与服务,个人智能助理将逐步落地。而新型便携式智能硬件、人形机器人等设备,其实用性也将得到大大提升。而在企业端,大模型在销售、客服以及日常办公中的应用也有望得到进一步提升。 ⚫低延迟响应速度进一步加大对推理算力的需求。GPT-4o在OpenAI的优化下达到了惊人的低时延,拉高了用户对于推理延迟的标准门槛。目前国产模型方面还没有模型的交互能达到如此低的标准,我们认为,随着用户对于延迟的要求不断提升,对于推理侧算力的需求将进一步提升。 投资建议与投资标的 我们认为,OpenAI推出GPT-4o有望加速AI相关应用落地,同时对于算力的需求也会随之大幅提升。 ⚫AI应用:建议关注中科创达(300496,买入)、虹软科技(688088,未评级)、金山办公(688111,增持)、泛微网络(603039,买入)、新致软件(688590,未评级)、彩讯股份(300634,买入)、科大讯飞(002230,买入)、万兴科技(300624,未评级)等公司 ⚫AI算力:建议关注云赛智联(600602,未评级)、中科曙光(603019,买入)、海光信息(688041,买入)、寒武纪-U(688256,未评级)、润泽科技(300442,未评级)、华铁应急(603300,买入)等公司 ⚫其他工具:星环科技-U(688031,未评级) 风险提示 技术落地不及预期;政策监管风险 目录 OpenAI发布新模型GPT-4o,跨模态能力大幅加强.......................................4 人机交互可用性进一步提升,助力AI应用加速落地.......................................6 投资建议与投资标的......................................................................................7 风险提示........................................................................................................7 图表目录 图1:OpenAI发布GPT-4o..........................................................................................................4图2:GPT-4o可以直接分析镜头视频..........................................................................................4图3:GPT-4o可以分析屏幕信息.................................................................................................4图4:GPT-4o能力探索-品牌logo合成........................................................................................5图5:GPT-4o能力探索-文字排版图生成.....................................................................................5图6:GPT-4o的文本推理能力和GPT-4 Turbo同水平................................................................5图7:GPT-4o的视觉理解能力领先..............................................................................................5图8:GPT-4o协助进行面试准备.................................................................................................6图9:GPT-4o协助数学辅导........................................................................................................6 OpenAI发布新模型GPT-4o,跨模态能力大幅加强 5月13日,OpenAI发布了最新旗舰模型GPT-4o。GPT-4o增强了语音交互功能,最快232毫秒响应音频输入,平均响应时间为320毫秒,与人类相似,视频理解能力也大大增强。GPT-4o的速度相比于GPT-4 Turbo快两倍、成本降低50%,速率限制高5倍。目前GPT-4o已面向包括免费用户在内的所有用户开放使用,为每个用户都提供了GPT-4级别的智能,并将推出桌面版ChatGPT,可以被轻松集成到用户的工作流程中。GPT-4o可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。 GPT-4o通过端到端模型实现语音交互效率与效果大幅提升。过去的GPT模型通过3个独立模型依次执行来实现语音交互,即语音转文字、文字生成和文字转语音,因此平均延迟较长,比如GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒,也会因为转文字丢失语音中的大量信息,如无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感等。而此次GPT-4o通过端到端模型进行训练,输入输出均由同一神经网络处理,因此进一步降低延迟,且能够理解语音中所包含的背景和情绪等信息,有助于更有效地实现人机互动。根据OpenAI发布会演示,GPT-4o能够分辨出对话者的情绪和语气,并能够在自己的语音中增加不同的情感。 GPT-4o视觉能力也显著提升。在发布会现场OpenAI展示了GPT-4o的语音+视觉的交互功能,在视频镜头下写下方程式,让ChatGPT给出提示。在桌面端,GPT-4o支持的ChatGPT能够直接分析屏幕图表以及代码。在OpenAI的官网上给出了更多GPT-4o能力探索的案例,包括生成3D对象、文字排版、品牌logo图像合成等。 图2:GPT-4o可以直接分析镜头视频 图3:GPT-4o可以分析屏幕信息 数据来源:OpenAI,东方证券研究所 GPT-4o的能力超越了目前主流前沿模型。根据OpenAI评估,GPT-4o在文本、推理和编码方面实现了GPT-4 Turbo级别的性能,同时在视觉能力方面创下了新纪录,领先GPT-4Turbo、Gemini、ClaudeOpus等前沿模型。 图6:GPT-4o的文本推理能力和GPT-4Turbo同水平 图7:GPT-4o的视觉理解能力领先 数据来源:OpenAI,东方证券研究所 人机交互可用性进一步提升,助力AI应用加速落地 跨模态交互能力增强,大模型实用度与使用频率有望大幅提升。此前GPT在文本交互方面的能力较强,但交互效率较低、交互模式受限。语音一直都是人类交互的重要手段,在很多场景下语音交互也比文字输入更加自然,而视频中也包含着更多文字难以准确描述的信息。我们认为,人机交互一直都是推动计算产业发展的重要推动力,回顾历史,从命令行输入到图形界面输入,推动了个人PC的普及,而从按键交互到触摸屏交互,也是智能手机的重磅革新。此次GPT-4o增加语音功能、提升视频理解能力并实现跨模态推理、推理延迟大幅度降低,让大模型的实用度与使用频率得到大大提升与拓展。 跨模态能力增加,有助于大模型在C端和B端应用加速落地。我们认为,跨模态能力的突破,对大模型的应用落地所产生的推动效果,将远大于单模态模型性能的提升。我们可以预期,各类硬件,如手机、PC、耳机、音箱等硬件将快速拥抱跨模态模型,提供更智能化的交互与服务,个人智能助理将逐步落地。而新型便携式智能硬件、人形机器人等设备,其实用性也将得到大大提升。从应用角度,C端应用如教育、游戏等领域的AI应用体验将迎来革新,而在企业端,大模型在销售、客服以及日常办公中的应用也有望得到进一步提升。 数据来源:OpenAI,东方证券研究所 低延迟响应速度进一步加大对推理算力的需求。GPT-4o在OpenAI的优化下达到了惊人的低时延,拉高了用户对于推理延迟的标准门槛。目前国产模型方面还没有模型的交互能达到如此低的标准,我们认为,随着用户对于延迟的要求不断提升,对于推理侧算力的需求将进一步提升。 投资建议与投资标的 我们认为,OpenAI推出GPT-4o有望加速AI相关应用落地,同时对于算力的需求也会随之大幅提升。 ⚫AI应用:建议关注中科创达(300496,买入)、虹软科技(688088,未评级)、金山办公(688111, 增 持)、 泛 微 网 络(603039, 买 入)、 新 致 软 件(688590, 未 评 级)、彩 讯 股 份(300634,买入)、科大讯飞(002230,买入)、万兴科技(300624,未评级)等公司⚫AI算力:建议关注云赛智联(600602,未评级)、中科曙光(603019,买入)、海光信息(688041,买入)、