行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

AI行业动态更新：OpenAI推出GPT-4o，谷歌I/O开发者大会发布多款AI产品

信息技术2024-05-21孔蓉、李泽宇天风证券浮***

AI智能总结

OpenAI推出GPT-4o，谷歌I/O开发者大会发布多款AI产品。GPT-4o是OpenAI的旗舰AI模型，具有多模态能力，能够同时处理和生成文本、音频和图像，响应速度快，语言和代码能力出色，使用成本低。谷歌在I/O开发者大会上发布了一系列AI产品，包括轻量化的模型Gemini 1.5 Flash、AI智能代理Project Astra、视频生成大模型VEO、强大的AI搜索、视频生成模型Veo、第六代TP U Trillium等。这些AI产品的发布将推动AI技术的迭代，为用户带来更好的体验感。我们建议关注AI模型架构和算力结构的变化，特别是大模型加上数量价值的变化。

AI行业动态更新：OpenAI推出GPT-4o，谷歌I/O开发者大会发布多款AI产品

事件： GPT-4o：5月14日凌晨，美国OpenAI公司推出可免费使用的全新旗舰AI模型GPT-4o。1）多模态：接受任何文本、音频、图像和视频的组合作为输入，并生成任何文本、音频和图像输出的组合。2）响应速度快：可以在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类在对话中的反应速度一致。3）语言和代码能力出色：在英文文本和代码上与GPT-4 Turbo的性能相匹配，在非英文文本上有了显著提升。4）使用成本低：在API使用方面，GPT-4o较之前版本价格降低一半且速度有所提升。谷歌I/O开发者大会：5月15日凌晨，谷歌在2024年I/O开发者大会上发布了一系列A I产品，重磅级的发布包括轻量化的模型Gemini 1.5 Flash、AI智能代理Project Astra、视频生成大模型VEO、强大的AI搜索、视频生成模型Veo、第六代TPU Trillium等，Gemini 1.5 Pro的上下文窗口也从100万tokens升级到200万。 GPT-4o模型的多模态能力为A I交互体验带来了革命性的变化，能够同时处理和生成文本、音频和图像，同时谷歌发布会GoogleI/O2024发布会推出了多款重磅AI相关产品，A I技术迭代将在多个领域为用户带来更好的体验感：1）教育：GPT-4o可以提供更加个性化、深入的教学辅助，为学生提供更丰富的学习资源和定制化的学习体验。2）AI助手：GPT-4o的智能程度更高，能够更准确地理解用户需求，理解用户的情感，提供更加智能、自然的对话交互，并且能够更好地处理复杂任务和多轮对话。3）数据分析：GPT-4o能够更快速地处理大规模数据，并且具备更深层次的理解和推理能力，可以更快地发现数据中的模式和趋势，提供更加精准的数据分析和预测。4）AR/VR领域：为AR/VR应用提供更加智能、自然的交互体验，使用户感受到更加沉浸式的虚拟世界，并且能够根据用户的反馈和环境变化实时调整交互内容。投资建议：我们认为：1）GPT-4o的发布代表了OpenAI模型作为智能代理的初次亮相，即它展示了更强的交互的能力，包括数据理解和分析能力、视觉理解能力、情感识别和输入、更流畅的交流体验。2）随着跨越文本、音频和视频的端到端模型GPT-4o的推出，我们预计OpenAI未来模型将在多模态能力方面不断提升。同时，Google在发布会上展示了其Gemini1.5模型的出色能力。从长期来看，我们认为今年最值得关注的是模型架构和算力结构的变化，特别是大模型加上数量价值的变化。风险提示：AI发展不及预期、AI商业化不及预期、AI竞争加剧。 1 OpenAI发布GPT4-o模型 5月14日凌晨，美国OpenAI公司推出可免费使用的全新旗舰AI模型GPT-4o。1）多模态：接受任何文本、音频、图像和视频的组合作为输入，并生成任何文本、音频和图像输出的组合。2）响应速度快：可以在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类在对话中的反应速度一致。3）语言和代码能力出色：在英文文本和代码上与GPT-4 Turbo的性能相匹配，在非英文文本上有了显著提升。4）使用成本低：在API使用方面，GPT-4o较之前版本价格降低一半且速度有所提升。 GPT-4o是一个跨越文本、音频和视频的端到端模型，这意味着所有输入和输出都是由同一个神经网络进行处理，推动了性能的提升。GPT-4o在多语言、音频、视觉能力创下了新的SOTA。在LMSYS发布的最新大模型测评中，GPT-4o性能呈现断崖式大幅领先其他模型。图1：模型性能测试对比图2：OpenAI CEO Sam Altman转发GPT-4o测评分数音频自动语音识别（ASR）性能：GPT-4o在所有语言上的语音识别性能上都有显著提升，特别是在资源较少的语言上，相较于Whisper-v3模型表现更为出色。音频翻译性能：GPT-4o在语音翻译方面达到了新的行业领先水平，并在多语言语音（MLS）基准测试中超越了Whisper-v3模型。图3：音频自动语音识别（ASR）测试结果图4：音频翻译测试结果多语言和视觉评估测试：M3Exam基准测试是一个多语言和视觉评估的综合体，它包含来自其他国家标准化考试的多项选择题。GPT-4o在所以语言测试中展现出比GPT-4更强的能力。视觉理解测试：GPT-4o在视觉能力方面达到了最强的能力，视觉能力超过了GPT-4 Turbo、Gemini 1.0 Ultra、Gemini 1.5 Pro、Claude Opus等多款主流大模型。图5：M3Exam基准测试结果图6：视觉理解测试结果视觉+语音交互功能：发布会演示了通过即时手写数学问题，要求GPT-4o不告诉解决方案，只是给予过程的提示。GPT-4o能在线理解问题进行指导。通过不断的引导以及给予提升，最终带领用户完成问题的解答。显示出GPT-4o视觉、语音的多模态交互功能（同时进行视觉理解、逻辑推理、语音输出等多项任务）。GPT-4o接受文本、音频和图像的任何组合作为输入，并生成文本、音频和图像的任何组合作为输出。图7：GPT-4o实时识别手写问题图8：引导用户解决问题实时理解桌面信息，解答问题并分析图表：OpenAI将推出桌面版ChatGPT，其可以被轻松集成到用户的工作流程中，很大程度提升了用户交互体验。发布会演示了ChatGPT分析代码的能力；首先将一段Python代码输入Chat GPT，并让ChatGPT用一句话总结这段代码在做什么。ChatGPT能够快速理解代码用于获取日常天气数据，随后又详细说明了其对天气数据进行了哪些后续分析。此次桌面版ChatGPT的推出，推动了大模型应用场景的落地，更像真人交互的AI Agent。GPT4o在电脑桌边部署或将预示着未来AI终端市场将迎来革命。图9：GPT-4o识别桌面代码图10：GPT-4o分析图表具备情绪感知能力：发布会演示了当用户通过视频向ChatGPT展示情绪，并要求ChatGPT识别他当下的心情。GPT4-o能够通过视频精确的识别用户的情绪；同时当受到夸赞时，GPT-4o也可以根据场景输出与真人相仿的情绪、语气；用户在对话中可以随时打断，与真实对话场景更为相似。此前大模型仅在文本交互方面有较强的能力；伴随着GPT-4o的推出大模型在情感理解、对话连贯性等方面有所改善，未来生成式A I将提供更好的人机交互体验，预计大模型的实用性将大幅提升。图11：GPT-4o输出与真人相仿的情绪图12：GPT-4o通过视频识别人类情绪 2谷歌I/O开发者大会 5月15日凌晨，谷歌在2024年I/ O开发者大会上发布了一系列A I产品，重磅级的发布包括轻量化的模型Gemini 1.5 Flash、A I智能代理Project Astra、视频生成大模型VEO、强大的A I搜索、视频生成模型Veo、第六代TPU Trillium等，Gemini 1.5 Pro的上下文窗口也从100万tokens升级到200万。 Gemini系列模型更新：谷歌发布了Gemini系列的最新A I模型Gemini 1.5 Flash，以及对 Gemini 1.5 Pro模型的升级。如今有超过150万开发者在使用GeminiAPI。Gemini 1.5 Pro 模型的上下文窗口从100万tokens增加到了200万tokens，能够处理更多数据，如2小时的视频、22小时的音频、超过60000行代码或超过140万个单词。图13：超过150万开发者在使用Gemini API 图14：Gemini 1.5 Pro模型的上下文窗口达到200万tokens Gemini 1.5 Flash模型运行更快、体积更小，更易于部署，支持处理多种类型的数据，专为开发者设计，具备与Pro相同的多模态功能和100万个token的长上下文窗口。图15：Gemini 1.5 Flash特性图16：Gemini 1.5 Flash性能评分多模态AI搜索：谷歌搜索负责人Liz Reid宣布了一项重大更新，将A I技术更深入地整合到搜索引擎中。AI Overview主要强调多模态功能，新变革包括引入视频搜索功能，允许用户上传视频来展示他们需要解决的问题，Gemini技术将在互联网各处寻找解决方案。此外，谷歌的多模态搜索支持通过声音搜索歌曲、图片搜索产品，并结合视频内容进行搜索。图17：跨知识图谱和网络获取组合信息图18：通过视频向AI搜索提问 AI智体Project Astra：是谷歌正在开发的一个创新A I代理项目，它通过智能手机摄像头来分析环境并与用户进行互动。Astra的核心功能包括记忆视觉和听觉信息以理解上下文，并快速响应用户的语音指令。谷歌特别优化了Astra的信息处理速度，并增强了其语音模型，使其交流更自然、无延迟。在演示中，Astra展现了其识别物体、理解场景和实时语音互动的能力，突显了其在增强现实和人机交互方面的实用性和潜力。图19：Project Astra识别代码图20：Project Astra识别手写内容视频生成大模型：谷歌发布了名为Veo的视频生成大模型，该模型能以多种电影和视觉风格生成超过一分钟时长的高质量1080p视频，并凭借对自然语言和视觉语义的理解紧密代表用户的创意愿景。为了帮助Veo更准确地理解和执行命令，训练数据集中每个视频的字幕中增加了更多详细信息。此外，为了进一步提升性能，模型还采用了高质量且经过压缩的视频表示，使其运行更加高效。这些改进措施提升了整体的质量，并缩短了生成视频所需的时间。图21：Veo执行命令原理推出第六代TPU—Trillium：TPU v5e相比，Trillium TPU的每芯片峰值计算性能提高了4.7倍。高带宽内存(HBM)容量和带宽增加了一倍，并将TPU v5e的芯片间互连(ICI)带宽增加了一倍。此外，Trillium还配备了第三代SparseCore专用加速器，用于处理高级排名和推荐工作负载中常见的超大嵌入。Trillium TPU可以更快地训练下一波基础模型，并以更少的延迟和更低的成本为这些模型提供服务。第六代Trillium TPU的能效比TPU v5e高出67%以上。Trillium TPU显著的性能提升将加速A I模型的训练过程，提高运行模型的效率，对谷歌的A I研发和服务有极大的促进作用。此外，领先的人工智能公司如Anthropic也在使用谷歌的TPU来训练他们的模型，进一步验证了TPU在当前A I研发领域的重要性。表1：谷歌4代、5代TPU性能参数图22：Trillium峰值计算性能提高了4.7倍 3OpenAI、谷歌模型横向对比模型性能方面，OpenAI占据领先优势。OpenAI新发布的GPT4-o模型在MMLU（语言理解能力测试）中获得88.7%，在MMMU（多模态基准测试）中获得69.1%；无论在语言能力还是多模态性能方面GPT4-o均在所以模型中处于领先地位。谷歌模型家族中性能最强悍的是Gemini Ultra，在MMLU（语言理解能力测试）中获得83.7%，在MMMU（多模态基准测试）中获得59.4%；语言理解能力和多模态能力不及2023年11月OpenAI发布的 GPT4-Turbo。在模型能力方面，OpenAI暂时领先于谷歌。价格方面Gemini 1.5 flash具有较大优势。GPT4-o在API使用方面，相比去年11月发布的GPT-4-turbo，价格降低一半，输入价格为$5/1百万tokens，输出价格为$15/ 1百万 tokens。虽然GPT4-o在价格方面有较大降幅，但谷歌新发布的Gemini 1.5 flash更具成本优势，其文本长度128K以下输入价格为$0.35 / 1百万tokens，文本长度128K 以下输出价格为$0.53/ 1百万tokens。表2：OpenA

点击免费查看完整报告

AI行业动态更新：OpenAI推出GPT-4o，谷歌I/O开发者大会发布多款AI产品

你可能感兴趣

计算机行业周报：谷歌I/O开发者大会召开，强调AI优先

OpenAI推出新一代旗舰生成模型GPT-4o，谷歌发布Astra与Veo等产品

Meta AI推出，谷歌正式发布Gemini 2.5 Pro I/O

OpenAI发布GPT-4o，谷歌召开I/O2024发布会

【盘中宝】OpenAI首届开发者大会重磅来袭！有望成为这个行业核心增长点，机构预计2030年该市场全球规模逼近2000亿美元，这家公司的AI技术在相关领域得到广泛应用，产品与解决方案已相继推出