您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[天风证券]:AI行业动态更新:OpenAI推出GPT-4o,谷歌I/O开发者大会发布多款AI产品 - 发现报告
当前位置:首页/行业研究/报告详情/

AI行业动态更新:OpenAI推出GPT-4o,谷歌I/O开发者大会发布多款AI产品

信息技术2024-05-22孔蓉、李泽宇天风证券浮***
AI行业动态更新:OpenAI推出GPT-4o,谷歌I/O开发者大会发布多款AI产品

海外行业报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 1 AI行业动态更新 证券研究报告 2024年05月22日 作者 孔蓉 分析师 SAC执业证书编号:S1110521020002 kongrong@tfzq.com 李泽宇 分析师 SAC执业证书编号:S1110520110002 lizeyu@tfzq.com OpenAI推出GPT-4o,谷歌I/O开发者大会发布多款AI产品 事件: GPT-4o:5月14日凌晨,美国OpenAI公司推出可免费使用的全新旗舰AI模型GPT-4o。1)多模态:接受任何文本、音频、图像和视频的组合作为输入,并生成任何文本、音频和图像输出的组合。2)响应速度快:可以在短至23 2毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。3)语言和代码能力出色:在英文文本和代码上与GPT-4 Turbo的性能相匹配,在非英文文本上有了显著提升。4)使用成本低:在API使用方面,GPT-4o较之前版本价格降低一半且速度有所提升。 谷歌I/O开发者大会:5月15日凌晨,谷歌在2024年I/O开发者大会上发布了一系列AI产品,重磅级的发布包括轻量化的模型Gemini 1.5 Flash、AI智能代理Project Astra、视频生成大模型VEO、强大的AI搜索、视频生成模型Veo、第六代TP U Trillium等,Gemi ni 1.5 P ro的上下文窗口也从100万tokens升级到200万。 GP T-4o模型的多模态能力为AI交互体验带来了革命性的变化,能够同时处理和生成文本、音频和图像,同时谷歌发布会GoogleI/O 2024发布会推出了多款重磅AI相关产品,AI技术迭代将在多个领域为用户带来更好的体验感:1)教育:GPT-4o 可以提供更加个性化、深入的教学辅助,为学生提供更丰富的学习资源和定制化的学习体验。2)AI助手:GPT-4o的智能程度更高,能够更准确地理解用户需求,理解用户的情感,提供更加智能、自然的对话交互,并且能够更好地处理复杂任务和多轮对话。3)数据分析:GPT-4o能够更快速地处理大规模数据,并且具备更深层次的理解和推理能力,可以更快地发现数据中的模式和趋势,提供更加精准的数据分析和预测。4)AR/VR领域:为AR/VR应用提供更加智能、自然的交互体验,使用户感受到更加沉浸式的虚拟世界,并且能够根据用户的反馈和环境变化实时调整交互内容。 投资建议:我们认为:1)GPT-4o的发布代表了O penAI模型作为智能代理的初次亮相,即它展示了更强的交互的能力,包括数据理解和分析能力、视觉理解能力、情感识别和输入、更流畅的交流体验。2)随着跨越文本、音频和视频的端到端模型GPT-4o的推出,我们预计Ope nAI未来模型将在多模态能力方面不断提升。同时,G oogle在发布会上展示了其Gemi ni1.5模型的出色能力。从长期来看,我们认为今年最值得关注的是模型架构和算力结构的变化,特别是大模型加上数量价值的变化。 风险提示:AI发展不及预期、AI商业化不及预期、AI竞争加剧。 行业报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 2 1 OpenAI发布GPT4-o模型 5月14日凌晨,美国OpenAI公司推出可免费使用的全新旗舰AI模型GPT-4o。1)多模态:接受任何文本、音频、图像和视频的组合作为输入,并生成任何文本、音频和图像输出的组合。2)响应速度快:可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。3)语言和代码能力出色:在英文文本和代码上与GPT-4 Turbo的性能相匹配,在非英文文本上有了显著提升。4)使用成本低:在API使用方面,GPT-4o较之前版本价格降低一半且速度有所提升。 GPT-4o是一个跨越文本、音频和视频的端到端模型,这意味着所有输入和输出都是由同一个神经网络进行处理,推动了性能的提升。GPT-4o在多语言、音频、视觉能力创下了新的SOTA。在LMSYS发布的最新大模型测评中,G PT-4o性能呈现断崖式大幅领先其他模型。 图1:模型性能测试对比 图2:OpenAI CEO Sam Altman转发GPT-4o测评分数 资料来源:OpenAI官网、天风证券研究所 资料来源:推特、天风证券研究所 音频自动语音识别(ASR)性能 : GPT-4o在所有语言上的语音识别性能上都有显著提升,特别是在资源较少的语言上,相较于Whisper-v3模型表现更为出色。 音频翻译性能:GPT-4o在语音翻译方面达到了新的行业领先水平,并在多语言语音(MLS)基准测试中超越了Whisper-v3模型。 图3:音频自动语音识别(ASR)测试结果 图4:音频翻译测试结果 行业报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 3 资料来源:OpenAI官网、天风证券研究所 资料来源:OpenAI官网、天风证券研究所 多语言和视觉评估测试:M3Exam基准测试是一个多语言和视觉评估的综合体,它包含来自其他国家标准化考试的多项选择题。GPT-4o在所以语言测试中展现出比GPT-4更强的能力。 视觉理解测试:GPT-4o在视觉能力方面达到了最强的能力,视觉能力超过了GPT-4 Turbo、Gemini 1.0 Ultra、Gemini 1.5 Pro、Claude Opus等多款主流大模型 。 图5:M3Exam基准测试结果 图6:视觉理解测试结果 资料来源:OpenAI官网、天风证券研究所 资料来源:OpenAI官网、天风证券研究所 视觉+语音交互功能:发布会演示了通过即时手写数学问题,要求GPT-4o不告诉解决方案,只是给予过程的提示。GPT-4o能在线理解问题进行指导。通过不断的引导以及给予提升,最终带领用户完成问题的解答。显示出GPT-4o视觉、语音的多模态交互功能(同时进行视觉理解、逻辑推理、语音输出等多项任务)。 G PT-4o接受文本、音频和图像的任何组合作为输入,并生成文本、音频和图像的任何组合作为输出。 图7:GPT-4o实时识别手写问题 图8:引导用户解决问题 行业报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 4 资料来源:OpenAI春季发布会视频、天风证券研究所 资料来源:OpenAI春季发布会视频、天风证券研究所 实时理解桌面信息,解答问题并分析图表:OpenAI将推出桌面版ChatGP T,其可以被轻松集成到用户的工作流程中,很大程度提升了用户交互体验。发布会演示了ChatGP T分析代码的能力;首先将一段Python代码输入Chat GP T,并让ChatGP T用一句话总结这段代码在做什么。ChatGP T能够快速理解代码用于获取日常天气数据,随后又详细说明了其对天气数据进行了哪些后续分析。此次桌面版ChatGP T的推出,推动了大模型应用场景的落地,更像真人交互的AI Agent。GPT4o在电脑桌边部署或将预示着未来AI终端市场将迎来革命。 图9:GPT-4o识别桌面代码 图10:GPT-4o分析图表 资料来源:OpenAI春季发布会视频、天风证券研究所 资料来源:OpenAI春季发布会视频、天风证券研究所 具备情绪感知能力:发布会演示了当用户通过视频向ChatGPT展示情绪,并要求ChatGP T识别他当下的心情。GP T4-o能够通过视频精确的识别用户的情绪;同时当受到夸赞时,GP T-4o也可以根据场景输出与真人相仿的情绪、语气;用户在对话中可以随时打断,与真实对话场景更为相似。此前大模型仅在文本交互方面有较强的能力;伴随着GP T-4o的推出大模型在情感理解、对话连贯性等方面有所改善,未来生成式AI将提供更好的人机交互体验,预计大模型的实用性将大幅提升。 图11:GPT-4o输出与真人相仿的情绪 图12:GPT-4o通过视频识别人类情绪 行业报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 5 资料来源:OpenAI春季发布会视频、天风证券研究所 资料来源:OpenAI春季发布会视频、天风证券研究所 2 谷歌I/O开发者大会 5月15日凌晨,谷歌在2024年I/ O开发者大会上发布了一系列AI产品,重磅级的发布包括轻量化的模型Gemini 1.5 Flash、AI智能代理Project Astra、视频生成大模型VEO、强大的AI搜索、视频生成模型Veo、第六代TP U Trillium等,Gemini 1.5 Pro的上下文窗口也从100万tokens升级到200万。 Gemini系列模型更新:谷歌发布了Gemi ni系列的最新AI模型Gemini 1.5 Flash,以及对Gemini 1.5 Pro模型的升级。如今有超过150万开发者在使用Gemi ni API。Gemi ni 1.5 Pro模型的上下文窗口从100万tokens增加到了200万tokens,能够处理更多数据,如2小时的视频、22小时的音频、超过60000行代码或超过140万个单词。 图13:超过150万开发者在使用Gemini API 图14:Gemini 1.5 Pro模型的上下文窗口达到200万tokens 资料来源:谷歌I/O开发者大会视频、天风证券研究所 资料来源:谷歌I/O开发者大会视频、天风证券研究所 Gemini 1.5 Flash模型运行更快、体积更小,更易于部署,支持处理多种类型的数据,专为开发者设计,具备与Pro相同的多模态功能和100万个token的长上下文窗口。 图15:Gemini 1.5 Flash特性 图16:Gemini 1.5 Flash性能评分 行业报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 6 资料来源:谷歌I/O开发者大会视频、天风证券研究所 资料来源:谷歌I/O开发者大会视频、天风证券研究所 多模态AI搜索:谷歌搜索负责人Liz Reid宣布了一项重大更新,将AI技术更深入地整合到搜索引擎中。A I Overview主要强调多模态功能,新变革包括引入视频搜索功能,允许用户上传视频来展示他们需要解决的问题,Gemi ni技术将在互联网各处寻找解决方案。此外,谷歌的多模态搜索支持通过声音搜索歌曲、图片搜索产品,并结合视频内容进行搜索。 图17:跨知识图谱和网络获取组合信息 图18:通过视频向AI搜索提问 资料来源:谷歌I/O开发者大会视频、THE VERGE、天风证券研究所 资料来源:谷歌I/O开发者大会视频、天风证券研究所 AI智体Project Astra:是谷歌正在开发的一个创新AI代理项目,它通过智能手机摄像头来分析环境并与用户进行互动。Astra的核心功能包括记忆视觉和听觉信息以理解上下文,并快速响应用户的语音指令。谷歌特别优化了Astra的信息处理速度,并增强了其语音模型,使其交流更自然、无延迟。在演示中,Astra展现了其识别物体、理解场景和实时语音互动的能力,突显了其在增强现实和人机交互方面的实用性和潜力。 图19:Project Astra识别代码 图20:Project Astra识别手写内容 行业报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 7 资料来源:谷歌I/O开发者大会视频、天风证券研究所 资料来源:谷歌I/O开发者大会视频、天风证券研究所 视频生成大模型:谷歌发布了名为Veo的视频生成大模型,该模型能以多种电影和视觉风格生成超过一分钟时长的高质量1080p视频,并凭借对自然语言和视觉语义的理解紧密代表用户的创意愿景。为了帮助Veo更准确地理解和执行命令,训练数据集中每个视