您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华创证券]:计算机行业AI+专题系列(十八):OpenAI发布GPT-4o:AI应用或加速落地 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业AI+专题系列(十八):OpenAI发布GPT-4o:AI应用或加速落地

信息技术2024-05-17吴鸣远华创证券B***
计算机行业AI+专题系列(十八):OpenAI发布GPT-4o:AI应用或加速落地

证 券 研 究 报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 未经许可,禁止转载 行业研究 计算机 2024年05月17日 AI+专题系列(十八) 推荐 (维持) OpenAI发布GPT-4o:AI应用或加速落地 事项:  2024年5月14日,OpenAI 发布了新一代生成模型 GPT-4o 及其桌面应用程序。GPT-4o(“o”代表“omni”)是 OpenAI 最新的旗舰型号,不仅具备与 GPT-4 同等的强大模型能力,还大幅提升了推理速度。GPT-4o 能够同时理解和处理文本、图像、音频等多种内容,展现了卓越的多模态能力。这一突破性进展将进一步推动自然语言处理和人工智能领域的发展,使人机交互更加高效和自然。OpenAI 的最新发布标志着人工智能技术的又一里程碑,有望在更多实际应用中展现其强大功能。 评论:  多模态模型显著降低延迟,实现即时语音对话:GPT-4o 多模态能力大幅提升,能够跨文本、音频和视频进行实时推理。使用语音模式与ChatGPT 对话当中,GPT-3.5 与 GPT-4 平均延迟分别为 2.8s、5.4s,而 GPT-4o 对音频输入的响应时间最短为 232 毫秒,平均为 320 毫秒,这与人类在对话中的响应时间相当。GPT-4o 运行速度大大提升,推动了更加自然的人机交互。  视觉与音频理解能力提升,交互能力更上一层楼:GPT-4o为用户提供更自然、准确的交互体验。模型具有情感感知能力,能够生成不同情绪风格的语言交互,包括声情并茂的讲情感故事、实时视频对话、实时音频翻译等。此外,用户可以随时打断模型,不需要等到其结束才能开始说话,更加符合人类交互逻辑。  API调用成本降低,凸显性价比优势:API的性价比显著提升。与 GPT-4 Turbo 相比,GPT-4o 的速度提升了两倍,成本则减少了 50%,并且速率限制提高了五倍。  GPT-4o刷新SOTA,性能表现卓越:在传统基准测试中,GPT-4o在文本、推理和编码智能方面,达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面创下了新高。在文本评估中,GPT-4o几乎碾压一众模型,包括Claude 3 Opus,Gemini Pro 1.5,甚至是Llama 3 400B。GPT-4o在零样本的COT MMLU(常识问题)上创造了88.7%的新高分。与传统的5个样本,没有使用COT的MMLU评测中,GPT-4o更是创下了87.2%的新高分。  投资建议:AI大模型本质应落脚垂类应用,国内大模型正快速追赶美国先进水平,中文大模型的突破有望为下游AI应用注入新的活力,看好AI+应用产品力与商业化落地进程。建议关注以下标的:AI+应用侧:1)安全:永信至诚、深信服;2)办公:金山办公、福昕软件;3)法律:金桥信息、华宇软件、通达海;4)医疗:润达医疗;5)教育:佳发教育、欧玛软件、新开普;6)金融:同花顺、新致软件;7)邮箱:彩讯股份;8)传媒:掌阅科技、华策影视;9)数据:海天瑞声;10)电商:焦点科技;11)OA:致远互联、泛微网络;12)ERP:用友网络、金蝶国际。算力侧:1)算力基础:润泽科技、亚康股份、海光信息、寒武纪、龙芯中科;2)服务器:中科曙光、浪潮信息、紫光股份、神州数码、拓维信息。  风险提示:商业化后表现不及预期,用户付费意愿低,行业技术迭代速度较快。 证券分析师:吴鸣远 邮箱:wumingyuan@hcyjs.com 执业编号:S0360523040001 联系人:张宇凡 邮箱:zhangyufan1@hcyjs.com 行业基本数据 占比% 股票家数(只) 333 0.04 总市值(亿元) 33,727.32 3.78 流通市值(亿元) 29,254.33 4.17 相对指数表现 % 1M 6M 12M 绝对表现 6.1% -21.9% -24.4% 相对表现 2.4% -23.8% -15.9% 相关研究报告 《计算机行业2023年与2024Q1业绩综述:板块业绩走出低谷,To G端持续承压》 2024-05-16 《AI+专题系列点评(十七):DeepSeek发布第二代MoE模型,降本增效有望加速AI应用普及》 2024-05-14 《计算机行业2024年Q1基金持仓分析:基金持仓处于相对低位,环比变动幅度较大》 2024-05-13 -40%-19%1%21%23/0523/0723/1023/1224/0324/052023-05-17~2024-05-16计算机沪深300华创证券研究所 AI+专题系列点评(十八) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 2 目 录 一、 GPT-4o交互能力实现突破,API成本更低 ................................................................. 4 (一) 多模态模型显著降低延迟,实现即时语音对话 ............................................... 4 (二) 视觉与音频理解能力提升,交互能力更上一层楼 ........................................... 4 (三) API调用成本降低,凸显性价比优势 ................................................................ 5 二、 GPT-4o刷新SOTA,性能表现卓越 ............................................................................. 7 AI+专题系列点评(十八) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 3 图表目录 图表 1 GPT-4o与技术人员实时对话 .................................................................................... 4 图表 2 GPT-4o感知技术人员的情绪 .................................................................................... 5 图表 3 GPT-4o理解代码并简短描述 .................................................................................... 5 图表 4 GPT-4o的API性价比提升 ....................................................................................... 6 图表 5 GPT-4o文本推理能力 ................................................................................................ 7 图表 6 GPT-4o多语言识别表现 ............................................................................................ 8 图表 7 GPT-4o音频翻译表现 ................................................................................................ 8 图表 8 GPT-4o M3Exam基准测试 ........................................................................................ 9 图表 9 GPT-4o视觉理解基准评估 ........................................................................................ 9 AI+专题系列点评(十八) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 4 一、GPT-4o交互能力实现突破,API成本更低 (一)多模态模型显著降低延迟,实现即时语音对话 GPT-4o 多模态能力大幅提升,能够跨文本、音频和视频进行实时推理。使用语音模式与ChatGPT 对话当中,GPT-3.5 与 GPT-4 平均延迟分别为 2.8s、5.4s,而 GPT-4o 对音频输入的响应时间最短为 232 毫秒,平均为 320 毫秒,这与人类在对话中的响应时间相当。GPT-4o 运行速度大大提升,推动了更加自然的人机交互。 (二)视觉与音频理解能力提升,交互能力更上一层楼 GPT-4o为用户提供更自然、准确的交互体验。模型具有情感感知能力,能够生成不同情绪风格的语言交互,包括声情并茂的讲情感故事、实时视频对话、实时音频翻译等。此外,用户可以随时打断模型,不需要等到其结束才能开始说话,更加符合人类交互逻辑。 图表 1 GPT-4o与技术人员实时对话 资料来源:CG世界公众号 AI+专题系列点评(十八) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 5 (三)API调用成本降低,凸显性价比优势 API 的性价比显著提升。与 GPT-4 Turbo 相比,GPT-4o 的速度提升了两倍,成本则减少了 50%,并且速率限制提高了五倍。 图表 2 GPT-4o感知技术人员的情绪 资料来源:CG世界公众号 图表 3 GPT-4o理解代码并简短描述 资料来源:CG世界公众号 AI+专题系列点评(十八) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 6 图表 4 GPT-4o的API性价比提升 资料来源:CG世界公众号 AI+专题系列点评(十八) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 7 二、GPT-4o刷新SOTA,性能表现卓越 在传统基准测试中,GPT-4o在文本、推理和编码智能方面,达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面创下了新高。在文本评估中,GPT-4o几乎碾压一众模型,包括Claude 3 Opus,Gemini Pro 1.5,甚至是Llama 3 400B。GPT-4o在零样本的COT MMLU(常识问题)上创造了88.7%的新高分。与传统的5个样本,没有使用COT的MMLU评测中,GPT-4o更是创下了87.2%的新高分。 在音频ASR表现上,比起Whisper-v3 ,GPT-4o显著提高了所有语言的语音识别性能,尤其是对资源较少的语言。 图表 5 GPT-4o文本推理能力 资料来源:OpenAI官网 AI+专题系列点评(十八) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 8 音频翻译能力,GPT-4o刷新SOTA,并在MLS基准上超过了Whisper-v3。 OpenAI团队还对最新模型GPT-4o在M3Exam基准上进行了测试。在所有语言的测试中,GPT-4o都比GPT-4强。 图表 6 GPT-4o多语言识别表现 资料来源:OpenAI官网 图表 7 GPT-4o音频翻