您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:OpenAI上新GPT-4o,人机交互革新带来可用性提升 - 发现报告
当前位置:首页/行业研究/报告详情/

OpenAI上新GPT-4o,人机交互革新带来可用性提升

信息技术2024-05-14浦俊懿、陈超东方证券L***
AI智能总结
查看更多
OpenAI上新GPT-4o,人机交互革新带来可用性提升

行业研究|动态跟踪 看好(维持) OpenAI上新GPT-4o,人机交互革新带来可用性提升 计算机行业 国家/地区中国 行业计算机行业 报告发布日期2024年05月14日 核心观点 5月13日,OpenAI发布了最新旗舰模型GPT-4o。GPT-4o增强了语音交互功 能,最快232毫秒响应音频输入,平均响应时间为320毫秒,与人类相似,视频理解能力也大大增强。GPT-4o的速度相比于GPT-4Turbo快两倍、成本降低50%,速率限制高5倍。GPT-4o已面向包括免费用户在内的所有用户开放使用,为每个用户都提供了GPT-4级别的智能,并将推出桌面版ChatGPT,可以被轻松集成到用户的工作流程中。GPT-4o可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。 GPT-4o通过端到端模型实现语音交互效率与效果大幅提升。过去的GPT模型通过 3个独立模型依次执行来实现语音交互,即语音转文字、文字生成和文字转语音,因此平均延迟较长,也会因此丢失语音中的大量信息,比如音调、背景音、歌声以及情感等。而此次GPT-4o通过端到端模型进行训练,输入输出均由同一神经网络处理,因此速度快,且能够理解语音中所包含的背景和情绪等信息,有助于更有效地实现人机互动。 跨模态交互能力增强,大模型实用度与使用频率有望大幅提升。此前GPT在文本交互方面的能力较强,但交互效率较低、交互模式受限。语音一直都是人类交互的重 要手段,在很多场景下语音交互也比文字输入更加自然,而视频中也包含着更多文字难以准确描述的信息。我们认为,人机交互一直都是推动计算产业发展的重要推动力,回顾历史,从命令行输入到图形界面输入,推动了个人PC的普及,而从按键交互到触摸屏交互,也是智能手机的重磅革新。此次GPT-4o增加语音功能、提升视频理解能力并实现跨模态推理、推理延迟大幅度降低,让大模型的实用度与使用频率得到大大提升与拓展。 跨模态能力增加,有助于大模型在C端和B端应用加速落地。我们认为,跨模态能力的突破,对大模型的应用落地所产生的推动效果,将远大于单模态模型性能的提 升。我们可以预期,各类硬件,如手机、PC、耳机、音箱等硬件将快速拥抱跨模态模型,提供更智能化的交互与服务,个人智能助理将逐步落地。而新型便携式智能硬件、人形机器人等设备,其实用性也将得到大大提升。而在企业端,大模型在销售、客服以及日常办公中的应用也有望得到进一步提升。 低延迟响应速度进一步加大对推理算力的需求。GPT-4o在OpenAI的优化下达到了惊人的低时延,拉高了用户对于推理延迟的标准门槛。目前国产模型方面还没有模 型的交互能达到如此低的标准,我们认为,随着用户对于延迟的要求不断提升,对于推理侧算力的需求将进一步提升。 投资建议与投资标的 我们认为,OpenAI推出GPT-4o有望加速AI相关应用落地,同时对于算力的需求也会随之大幅提升。 AI应用:建议关注中科创达(300496,买入)、虹软科技(688088,未评级)、金山办 公(688111,增持)、泛微网络(603039,买入)、新致软件(688590,未评级)、彩讯股份(300634,买入)、科大讯飞(002230,买入)、万兴科技(300624,未评级)等公司 AI算力:建议关注云赛智联(600602,未评级)、中科曙光(603019,买入)、海光信 息(688041,买入)、寒武纪-U(688256,未评级)、润泽科技(300442,未评级)、华铁应急(603300,买入)等公司 其他工具:星环科技-U(688031,未评级) 风险提示 技术落地不及预期;政策监管风险 浦俊懿021-63325888*6106 pujunyi@orientsec.com.cn 执业证书编号:S0860514050004 陈超021-63325888*3144 chenchao3@orientsec.com.cn 执业证书编号:S0860521050002 覃俊宁qinjunning@orientsec.com.cn 宋鑫宇songxinyu@orientsec.com.cn 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 OpenAI发布新模型GPT-4o,跨模态能力大幅加强4 人机交互可用性进一步提升,助力AI应用加速落地6 投资建议与投资标的7 风险提示7 图表目录 图1:OpenAI发布GPT-4o4 图2:GPT-4o可以直接分析镜头视频4 图3:GPT-4o可以分析屏幕信息4 图4:GPT-4o能力探索-品牌logo合成5 图5:GPT-4o能力探索-文字排版图生成5 图6:GPT-4o的文本推理能力和GPT-4Turbo同水平5 图7:GPT-4o的视觉理解能力领先5 图8:GPT-4o协助进行面试准备6 图9:GPT-4o协助数学辅导6 OpenAI发布新模型GPT-4o,跨模态能力大幅加强 5月13日,OpenAI发布了最新旗舰模型GPT-4o。GPT-4o增强了语音交互功能,最快232毫 秒响应音频输入,平均响应时间为320毫秒,与人类相似,视频理解能力也大大增强。GPT-4o的速度相比于GPT-4Turbo快两倍、成本降低50%,速率限制高5倍。目前GPT-4o已面向包括免费用户在内的所有用户开放使用,为每个用户都提供了GPT-4级别的智能,并将推出桌面版ChatGPT,可以被轻松集成到用户的工作流程中。GPT-4o可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。 图1:OpenAI发布GPT-4o 数据来源:OpenAI,东方证券研究所 GPT-4o通过端到端模型实现语音交互效率与效果大幅提升。过去的GPT模型通过3个独立模型依次执行来实现语音交互,即语音转文字、文字生成和文字转语音,因此平均延迟较长,比如GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒,也会因为转文字丢失语音中的大量信息,如无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感等。而此次GPT-4o通过端到端模型进行训练,输入输出均由同一神经网络处理,因此进一步降低延迟,且能够理解语音中所包含的背景和情绪等信息,有助于更有效地实现人机互动。根据OpenAI发布会演示,GPT-4o能够分辨出对话者的情绪和语气,并能够在自己的语音中增加不同的情感。 GPT-4o视觉能力也显著提升。在发布会现场OpenAI展示了GPT-4o的语音+视觉的交互功能,在视频镜头下写下方程式,让ChatGPT给出提示。在桌面端,GPT-4o支持的ChatGPT能够直接分析屏幕图表以及代码。在OpenAI的官网上给出了更多GPT-4o能力探索的案例,包括生成 3D对象、文字排版、品牌logo图像合成等。 图2:GPT-4o可以直接分析镜头视频图3:GPT-4o可以分析屏幕信息 数据来源:OpenAI,东方证券研究所数据来源:OpenAI,东方证券研究所 图4:GPT-4o能力探索-品牌logo合成图5:GPT-4o能力探索-文字排版图生成 数据来源:OpenAI,东方证券研究所数据来源:OpenAI,东方证券研究所 GPT-4o的能力超越了目前主流前沿模型。根据OpenAI评估,GPT-4o在文本、推理和编码方面实现了GPT-4Turbo级别的性能,同时在视觉能力方面创下了新纪录,领先GPT-4Turbo、Gemini、ClaudeOpus等前沿模型。 图6:GPT-4o的文本推理能力和GPT-4Turbo同水平图7:GPT-4o的视觉理解能力领先 数据来源:OpenAI,东方证券研究所数据来源:OpenAI,东方证券研究所 人机交互可用性进一步提升,助力AI应用加速落地 跨模态交互能力增强,大模型实用度与使用频率有望大幅提升。此前GPT在文本交互方面的能力较强,但交互效率较低、交互模式受限。语音一直都是人类交互的重要手段,在很多场景下语音交互也比文字输入更加自然,而视频中也包含着更多文字难以准确描述的信息。我们认为,人机交互一直都是推动计算产业发展的重要推动力,回顾历史,从命令行输入到图形界面输入,推动了个人PC的普及,而从按键交互到触摸屏交互,也是智能手机的重磅革新。此次GPT-4o增加 语音功能、提升视频理解能力并实现跨模态推理、推理延迟大幅度降低,让大模型的实用度与使用频率得到大大提升与拓展。 跨模态能力增加,有助于大模型在C端和B端应用加速落地。我们认为,跨模态能力的突破,对大模型的应用落地所产生的推动效果,将远大于单模态模型性能的提升。我们可以预期,各类硬件,如手机、PC、耳机、音箱等硬件将快速拥抱跨模态模型,提供更智能化的交互与服务,个人智能助理将逐步落地。而新型便携式智能硬件、人形机器人等设备,其实用性也将得到大大提升。从应用角度,C端应用如教育、游戏等领域的AI应用体验将迎来革新,而在企业端,大模型在销售、客服以及日常办公中的应用也有望得到进一步提升。 图8:GPT-4o协助进行面试准备图9:GPT-4o协助数学辅导 数据来源:OpenAI,东方证券研究所数据来源:OpenAI,东方证券研究所 低延迟响应速度进一步加大对推理算力的需求。GPT-4o在OpenAI的优化下达到了惊人的低时延,拉高了用户对于推理延迟的标准门槛。目前国产模型方面还没有模型的交互能达到如此低的标准,我们认为,随着用户对于延迟的要求不断提升,对于推理侧算力的需求将进一步提升。 投资建议与投资标的 我们认为,OpenAI推出GPT-4o有望加速AI相关应用落地,同时对于算力的需求也会随之大幅提升。 AI应用:建议关注中科创达(300496,买入)、虹软科技(688088,未评级)、金山办公(688111,增持)、泛微网络(603039,买入)、新致软件(688590,未评级)、彩讯股份(300634,买入)、科大讯飞(002230,买入)、万兴科技(300624,未评级)等公司 AI算力:建议关注云赛智联(600602,未评级)、中科曙光(603019,买入)、海光信息(688041,买入)、寒武纪-U(688256,未评级)、润泽科技(300442,未评级)、华铁应急(603300,买入)等公司 其他工具:星环科技-U(688031,未评级) 风险提示 技术落地不及预期。AI应用落地需要大模型、深度学习、长文本、多模态等多种人工智能技术赋能,以完成特定场景下的任务。若未来相关技术演进速度不及预期,将影响模型应用商业化落地的节奏。 政策监管风险。目前有关于AIGC创作内容的版权及监管等方面的政策尚未明确,若未来相关政策对AIGC和大模型相关的应用监管力度加强,将会影响AIGC的应用推广。 分析师申明 每位负责撰写本研究报告全部或部分内容的研究分析师在此作以下声明: 分析师在本报告中对所提及的证券或发行人发表的任何建议和观点均准确地反映了其个人对该证券或发行人的看法和判断;分析师薪酬的任何组成部分无论是在过去、现在及将来,均与其在本研究报告中所表述的具体建议或观点无任何直接或间接的关系。 投资评级和相关定义 报告发布日后的12个月内行业或公司的涨跌幅相对同期相关证券市场代表性指数的涨跌幅为基准 (A股市场基准为沪深300指数,香港市场基准为恒生指数,美国市场基准为标普500指数); 公司投资评级的量化标准 买入:相对强于市场基准指数收益率15%以上;增持:相对强于市场基准指数收益率5%~15%; 中性:相对于市场基准指数收益率在-5%~+5%之间波动;减持:相对弱于市场基准指数收益率在-5%以下。 未评级——由于在报告发出之时该股票不在本公司研究覆盖范围内,分析师基于当时对该股票的研究状况,未给予投资评级相关信息。 暂停评级——根据监管制度及本公司相关规定,研究报告发布之时该投资对象可