Open AI发布新一代旗舰生成模型GPT-4o 北京时间2024年5月14日凌晨,Open AI发布了新一代旗舰生成模型GPT-4o及桌面App。GPT-4o是类似于AI助手的大模型,它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。GPT-4o具备多模态输入输出能力,可以进行实时的语音对话,响应时间大大缩短,并且可以随时打断AI助手的话。 谷歌推出Project Astra对标GPT-4o 2024年5月15日凌晨,Google I/O开发者大会发布了多项AI新产品。 Project Astra是谷歌基于Gemini大模型打造的AI agent,代表着谷歌对于未来人工智能助手的探索,可以处理多模态信息,理解输入信息,并且进行自然的对话。Project Astra通过手机摄像头可以识别周围环境和物体,并和用户进行实时语音对话。 新一代AI助手有望刺激终端硬件需求 根据彭博社的报道,苹果公司已经就与OpenAI达成协议,在iPhone上使用后者的技术,双方已经就在iOS 18上使用ChatGPT功能达成协议的最后条款。更加智能的AI助手有望刺激智能手机的换机需求。从GPT-4o来看,智能助手流畅的自然语言交互离不开声学、影像、计算等多类硬件的协同工作,对终端的硬件性能提出了新的要求,或将刺激新一轮换机周期的到来。 电子行业投资建议 大模型不断迭代升级,AI应用快速发展,建议关注算力产业链。同时,算力需求带动HBM需求同步增长,建议关注HBM产业链。相关标的:雅克科技、华海诚科等。AI PC、AI手机的推出叠加换机周期的到来,有望促进消费电子终端销量重回增长轨道,建议关注AI硬件产业链。相关标的:维信诺等。半导体经济周期有望于2024年迎来反弹,建议关注国产IC制造产业链。相关标的:中芯国际、长电科技、芯源微等。 风险提示:AI助手实际用户体验不及预期的风险、隐私保护的风险、高能耗问题难以解决的风险。 1.新一代AI助手展示强大的协作能力 1.1GPT-4o具备流畅的人机交互能力 北京时间2024年5月14日凌晨,Open AI发布了新一代旗舰生成模型GPT-4o及桌面App。GPT-4o(o代表omni)是类似于AI助手的大模型,它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。响应音频的时间可以缩短至最少232毫秒,平均为320毫秒,与人类在一次谈话中的响应时间相似。它在英语文本和代码上的性能与GPT-4 Turbo的性能相匹配,在非英语文本上的性能显着提高,同时API的速度也更快,成本降低了50%。与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。 GPT-4o具备多模态输入输出能力,可以进行实时的语音对话。和以往的智能语音助手不同的是,用户可以随时打断AI助手的话,并进行新的对话;其次,AI助手的响应速度极快,不需要长时间等待;重要的是,AI助手可以充分理解人类感情也可以表现出各种感情。 图表1:GPT-4o人机交互演示示意图 此外,GPT-4o还具备解答数学题、鉴别物体、实时翻译、视觉叙事、海报创作、角色设计、纪念币设计、照片转漫画、文字转字体、文字诗意排版等功能。 图表2:GPT-4o人物照片转漫画功能 图表3:GPT-4o文章诗意排版功能 GPT-4o性能得分创新高。根据基准测试,GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉功能上达到了新的高度。GPT-4o在0-shot COT MMLU(常识问题)上创下了88.7%的新高分。此外,在传统的5-shot no-CoT MMLU上,GPT-4o创下了87.2%的新高分。 图表4:GPT-4o文本表现评价得分 图表5:GPT-4o视觉理解评价得分 1.2谷歌I/O大会推出多项AI新产品 2024年5月15日凌晨,Google I/O开发者大会正式开幕,本次大会全部围绕人工智能展开,会上谷歌发布了多项AI新产品。 谷歌发布了全新版本的Gemini 1.5 Pro,并新推出简化版的Gemini 1.5 Flash模型。全新Gemini 1.5 Pro具有原生音频理解、系统指令、JSON模式等功能,能够使用视频计算机视觉来分析图像、音频和视频,这使其具有人类水平的视觉感知。它的上下文token数将会达到200万,能够同时处理2小时的视频、22小时的音频、超过6万行代码或超过140万个单词。相比之下,GPT-4 Turbo的上下文token数只有128K,Claude 3也只有200K。 图表6:Gemini 1.5模型上下文token数量 谷歌推出Project Astra对标GPT-4o。Project Astra是谷歌基于Gemini大模型打造的AI agent,代表着谷歌对于未来人工智能助手的探索,可以处理多模态信息,理解输入信息,并且进行自然的对话。Project Astra通过手机摄像头可以识别周围环境和物体,并和用户进行实时语音对话。 图表7:Project Astra演示过程截图 推出视频生成模型Veo对标Sora。谷歌推出了AI媒体创作模型Veo和Imagen3,直接对标Sora类型的视频生成技术和Dall-E文生图技术。Veo可以制作高质量1080p视频,Imagen 3是最新的文本到图像框架。谷歌声称Veo具有对自然语言和视觉语义的高级理解,可以创建用户想要的任何视频,可以生成超过一分钟的视频。 Veo还能够理解电影和视觉技术,例如延时拍摄的概念。 图表8:VEO生成视频功能演示示意图 1.3新一代AI助手有望刺激终端硬件需求 苹果或将与Open AI开展人工智能领域合作。根据彭博社的报道,苹果公司已经就与OpenAI达成协议,在iPhone上使用后者的技术。这是苹果进一步在其设备上增加人工智能功能计划的一部分。双方已经就在iOS 18上使用ChatGPT功能达成协议的最后条款(iOS 18是下一代iPhone操作系统)。报道称苹果此外还与谷歌进行过讨论,希望能许可使用后者的Gemini聊天机器人。但谈判尚未达成协议,仍在持续中。 根据纽约时报的报道,苹果将会在2024年度全球开发者大会(WWDC)上展示由生成式AI驱动的新版siri。苹果显然意识到,随着ChatGPT的出现,苹果siri语音交互助手已经显得非常过时。智能语音市场规模持续扩大,已经成为重要的人机交互模式之一。根据德勤的统计数据,中国智能语音市场规模2024年有望达到469亿元,同比增速或将达到23%。 图表9:中国智能语音市场规模(亿元) 更加智能的AI助手有望刺激智能手机的换机需求。从Open AI发布的GPT-4o来看,智能助手流畅的自然语言交互离不开声学、影像、计算等多类硬件的协同工作,对终端的硬件性能提出了新的要求,或将刺激新一轮换机周期的到来。根据IDC的预测,2024年全球新一代AI智能手机出货量将达到1.7亿台,占全球市场的15%,同比增速高达233%;中国市场新一代AI手机出货量有望从2023年的0.1亿台提升至2027年的1.5亿台,手机市场占比有望从2023年的5.5%提升至2027年的51.9%。 图表10:全球新一代AI手机出货量(亿台) 图表11:中国新一代AI手机市场预测 耳机是重要的语音交互工具,或将受益于AI助手的进化。根据Canalys的数据,2024年Q1全球TWS耳机市场出货量达6500万,同比增长6%,其中。随着AI助手在用户日常工作生活中发挥越来越重要的作用,智能耳机作为重要的语音交互硬件,有望持续受益。 图表12:2024年Q1全球TWS耳机前五大厂商市场份额及增速 2.投资建议 2.1建议关注算力产业链 全球AI大模型不断迭代升级,AI应用快速发展,国内以Kimi为代表的国产大模型用户体验非常流畅,建议关注算力产业链。同时,算力需求带动HBM需求同步增长,建议关注HBM产业链。相关标的:雅克科技、华海诚科等。 2.2建议关注消费电子复苏及AI终端落地 自2023年Q3以来,消费电子逐步进入复苏周期,同时多家消费电子终端品牌厂商陆续推出新的AI硬件产品,包括AI PC、AI手机、AI Pin等多种类型。因此我们认为AI PC、AI手机等终端产品的推出,叠加换机周期的到来,有望促进消费电子终端销量重回增长轨道,建议关注AI硬件产业链。相关标的:维信诺等。 2.3建议关注半导体复苏周期 下游库存经历较为充分的去化,同时AI相关领域带来新的需求增量,半导体经济周期有望于2024年迎来反弹,建议关注国产IC制造产业链。相关标的:中芯国际、长电科技、芯源微等。 3.风险提示 AI助手实际用户体验不及预期的风险:Open AI和谷歌推出的新一代AI助手是全新产品,仍处于小范围测试阶段,尚未经过大范围使用的检验。如果用户体验不及预期,或将对AI助手的使用率和硬件需求带来不利影响。 隐私保护的风险。AI助手出色的性能大概率需要通过云端AI性能的支持,对用户全方位信息的收集和传输或将带来隐私泄露的风险。相关法律规定和用户接受度或将成为阻碍AI助手普及的潜在因素。 高能耗问题难以解决的风险:AI助手对多类硬件的频繁调用或将消耗大量电力,给硬件终端的续航和散热方面都提出了新的挑战。如果实际能耗超出预期,或将延迟AI助手产品推广的进度。