事件: GPT-4o:5月14日凌晨,美国OpenAI公司推出可免费使用的全新旗舰AI模型GPT-4o。1)多模态:接受任何文本、音频、图像和视频的组合作为输入,并生成任何文本、音频和图像输出的组合。2)响应速度快:可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。3)语言和代码能力出色:在英文文本和代码上与GPT-4 Turbo的性能相匹配,在非英文文本上有了显著提升。4)使用成本低:在API使用方面,GPT-4o较之前版本价格降低一半且速度有所提升。 谷歌I/O开发者大会:5月15日凌晨,谷歌在2024年I/O开发者大会上发布了一系列A I产品,重磅级的发布包括轻量化的模型Gemini 1.5 Flash、AI智能代理Project Astra、视频生成大模型VEO、强大的AI搜索、视频生成模型Veo、第六代TPU Trillium等,Gemini 1.5 Pro的上下文窗口也从100万tokens升级到200万。 GPT-4o模型的多模态能力为A I交互体验带来了革命性的变化,能够同时处理和生成文本、音频和图像,同时谷歌发布会GoogleI/O2024发布会推出了多款重磅AI相关产品,A I技术迭代将在多个领域为用户带来更好的体验感:1)教育:GPT-4o可以提供更加个性化、深入的教学辅助,为学生提供更丰富的学习资源和定制化的学习体验。2)AI助手:GPT-4o的智能程度更高,能够更准确地理解用户需求,理解用户的情感,提供更加智能、自然的对话交互,并且能够更好地处理复杂任务和多轮对话。3)数据分析:GPT-4o能够更快速地处理大规模数据,并且具备更深层次的理解和推理能力,可以更快地发现数据中的模式和趋势,提供更加精准的数据分析和预测。4)AR/VR领域:为AR/VR应用提供更加智能、自然的交互体验,使用户感受到更加沉浸式的虚拟世界,并且能够根据用户的反馈和环境变化实时调整交互内容。 投资建议:我们认为:1)GPT-4o的发布代表了OpenAI模型作为智能代理的初次亮相,即它展示了更强的交互的能力,包括数据理解和分析能力、视觉理解能力、情感识别和输入、更流畅的交流体验。2)随着跨越文本、音频和视频的端到端模型GPT-4o的推出,我们预计OpenAI未来模型将在多模态能力方面不断提升。同时,Google在发布会上展示了其Gemini1.5模型的出色能力。从长期来看,我们认为今年最值得关注的是模型架构和算力结构的变化,特别是大模型加上数量价值的变化。 风险提示:AI发展不及预期、AI商业化不及预期、AI竞争加剧。 1 OpenAI发布GPT4-o模型 5月14日凌晨,美国OpenAI公司推出可免费使用的全新旗舰AI模型GPT-4o。1)多模态:接受任何文本、音频、图像和视频的组合作为输入,并生成任何文本、音频和图像输出的组合。2)响应速度快:可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。3)语言和代码能力出色:在英文文本和代码上与GPT-4 Turbo的性能相匹配,在非英文文本上有了显著提升。4)使用成本低:在API使用方面,GPT-4o较之前版本价格降低一半且速度有所提升。 GPT-4o是一个跨越文本、音频和视频的端到端模型,这意味着所有输入和输出都是由同一个神经网络进行处理,推动了性能的提升。GPT-4o在多语言、音频、视觉能力创下了新的SOTA。在LMSYS发布的最新大模型测评中,GPT-4o性能呈现断崖式大幅领先其他模型。 图1:模型性能测试对比 图2:OpenAI CEO Sam Altman转发GPT-4o测评分数 音频自动语音识别(ASR)性能:GPT-4o在所有语言上的语音识别性能上都有显著提升,特别是在资源较少的语言上,相较于Whisper-v3模型表现更为出色。 音频翻译性能:GPT-4o在语音翻译方面达到了新的行业领先水平,并在多语言语音(MLS)基准测试中超越了Whisper-v3模型。 图3:音频自动语音识别(ASR)测试结果 图4:音频翻译测试结果 多语言和视觉评估测试:M3Exam基准测试是一个多语言和视觉评估的综合体,它包含来自其他国家标准化考试的多项选择题。GPT-4o在所以语言测试中展现出比GPT-4更强的能力。 视觉理解测试:GPT-4o在视觉能力方面达到了最强的能力,视觉能力超过了GPT-4 Turbo、Gemini 1.0 Ultra、Gemini 1.5 Pro、Claude Opus等多款主流大模型。 图5:M3Exam基准测试结果 图6:视觉理解测试结果 视觉+语音交互功能:发布会演示了通过即时手写数学问题,要求GPT-4o不告诉解决方案,只是给予过程的提示。GPT-4o能在线理解问题进行指导。通过不断的引导以及给予提升,最终带领用户完成问题的解答。显示出GPT-4o视觉、语音的多模态交互功能(同时进行视觉理解、逻辑推理、语音输出等多项任务)。GPT-4o接受文本、音频和图像的任何组合作为输入,并生成文本、音频和图像的任何组合作为输出。 图7:GPT-4o实时识别手写问题 图8:引导用户解决问题 实时理解桌面信息,解答问题并分析图表:OpenAI将推出桌面版ChatGPT,其可以被轻松集成到用户的工作流程中,很大程度提升了用户交互体验。发布会演示了ChatGPT分析代码的能力;首先将一段Python代码输入Chat GPT,并让ChatGPT用一句话总结这段代码在做什么。ChatGPT能够快速理解代码用于获取日常天气数据,随后又详细说明了其对天气数据进行了哪些后续分析。此次桌面版ChatGPT的推出,推动了大模型应用场景的落地,更像真人交互的AI Agent。GPT4o在电脑桌边部署或将预示着未来AI终端市场将迎来革命。 图9:GPT-4o识别桌面代码 图10:GPT-4o分析图表 具备情绪感知能力:发布会演示了当用户通过视频向ChatGPT展示情绪,并要求ChatGPT识别他当下的心情。GPT4-o能够通过视频精确的识别用户的情绪;同时当受到夸赞时,GPT-4o也可以根据场景输出与真人相仿的情绪、语气;用户在对话中可以随时打断,与真实对话场景更为相似。此前大模型仅在文本交互方面有较强的能力;伴随着GPT-4o的推出大模型在情感理解、对话连贯性等方面有所改善,未来生成式A I将提供更好的人机交互体验,预计大模型的实用性将大幅提升。 图11:GPT-4o输出与真人相仿的情绪 图12:GPT-4o通过视频识别人类情绪 2谷歌I/O开发者大会 5月15日凌晨,谷歌在2024年I/ O开发者大会上发布了一系列A I产品,重磅级的发布包 括轻量化的模型Gemini 1.5 Flash、A I智能代理Project Astra、视频生成大模型VEO、强 大的A I搜索、视频生成模型Veo、第六代TPU Trillium等,Gemini 1.5 Pro的上下文窗口 也从100万tokens升级到200万。 Gemini系列模型更新:谷歌发布了Gemini系列的最新A I模型Gemini 1.5 Flash,以及对 Gemini 1.5 Pro模型的升级。如今有超过150万开发者在使用GeminiAPI。Gemini 1.5 Pro 模型的上下文窗口从100万tokens增加到了200万tokens,能够处理更多数据,如2小 时的视频、22小时的音频、超过60000行代码或超过140万个单词。 图13:超过150万开发者在使用Gemini API 图14:Gemini 1.5 Pro模型的上下文窗口达到200万tokens Gemini 1.5 Flash模型运行更快、体积更小,更易于部署,支持处理多种类型的数据,专 为开发者设计,具备与Pro相同的多模态功能和100万个token的长上下文窗口。 图15:Gemini 1.5 Flash特性 图16:Gemini 1.5 Flash性能评分 多模态AI搜索:谷歌搜索负责人Liz Reid宣布了一项重大更新,将A I技术更深入地整合到搜索引擎中。AI Overview主要强调多模态功能,新变革包括引入视频搜索功能,允许用户上传视频来展示他们需要解决的问题,Gemini技术将在互联网各处寻找解决方案。此外,谷歌的多模态搜索支持通过声音搜索歌曲、图片搜索产品,并结合视频内容进行搜索。 图17:跨知识图谱和网络获取组合信息 图18:通过视频向AI搜索提问 AI智体Project Astra:是谷歌正在开发的一个创新A I代理项目,它通过智能手机摄像头来分析环境并与用户进行互动。Astra的核心功能包括记忆视觉和听觉信息以理解上下文,并快速响应用户的语音指令。谷歌特别优化了Astra的信息处理速度,并增强了其语音模型,使其交流更自然、无延迟。在演示中,Astra展现了其识别物体、理解场景和实时语音互动的能力,突显了其在增强现实和人机交互方面的实用性和潜力。 图19:Project Astra识别代码 图20:Project Astra识别手写内容 视频生成大模型:谷歌发布了名为Veo的视频生成大模型,该模型能以多种电影和视觉风格生成超过一分钟时长的高质量1080p视频,并凭借对自然语言和视觉语义的理解紧密代表用户的创意愿景。为了帮助Veo更准确地理解和执行命令,训练数据集中每个视频的字幕中增加了更多详细信息。此外,为了进一步提升性能,模型还采用了高质量且经过压缩的视频表示,使其运行更加高效。这些改进措施提升了整体的质量,并缩短了生成视频所需的时间。 图21:Veo执行命令原理 推出第六代TPU—Trillium:TPU v5e相比,Trillium TPU的每芯片峰值计算性能提高了4.7倍。高带宽内存(HBM)容量和带宽增加了一倍,并将TPU v5e的芯片间互连(ICI)带宽增加了一倍。此外,Trillium还配备了第三代SparseCore专用加速器,用于处理高级排名和推荐工作负载中常见的超大嵌入。Trillium TPU可以更快地训练下一波基础模型,并以更少的延迟和更低的成本为这些模型提供服务。第六代Trillium TPU的能效比TPU v5e高出67%以上。Trillium TPU显著的性能提升将加速A I模型的训练过程,提高运行模型的效率,对谷歌的A I研发和服务有极大的促进作用。此外,领先的人工智能公司如Anthropic也在使用谷歌的TPU来训练他们的模型,进一步验证了TPU在当前A I研发领域的重要性。 表1:谷歌4代、5代TPU性能参数 图22:Trillium峰值计算性能提高了4.7倍 3OpenAI、谷歌模型横向对比 模型性能方面,OpenAI占据领先优势。OpenAI新发布的GPT4-o模型在MMLU(语言理 解能力测试)中获得88.7%,在MMMU(多模态基准测试)中获得69.1%;无论在语言能 力还是多模态性能方面GPT4-o均在所以模型中处于领先地位。谷歌模型家族中性能最强 悍的是Gemini Ultra,在MMLU(语言理解能力测试)中获得83.7%,在MMMU(多模态 基准测试)中获得59.4%;语言理解能力和多模态能力不及2023年11月OpenAI发布的 GPT4-Turbo。在模型能力方面,OpenAI暂时领先于谷歌。 价格方面Gemini 1.5 flash具有较大优势。GPT4-o在API使用方面,相比去年11月发布 的GPT-4-turbo,价格降低一半,输入价格为$5/1百万tokens,输出价格为$15/ 1百万 tokens。虽然GPT4-o在价格方面有较大降幅,但谷歌新发布的Gemini 1.5 flash更具成本 优势,其文本长度128K以下输入价格为$0.35 / 1百万tokens,文本长度128K 以下输出 价格为$0.53/ 1百万tokens。 表2:OpenA