交互型多模态大模型有望带来应用的爆发起点 人工智能系列报告(六) 核心结论 交互型多模态大模型是指跨越单一模态的限制,支持文本、音频、图像、视频等模态任意组合的输入输出,能做出实时的、“类人”的理解和反馈,可以跟人无缝交流的大模型,目前最具代表性的是OpenAI的GPT-4o。特点如下:1)原生多模态:跨文本、视频和音频等模态端到端训练的大模型,所有输入和输出都由同一神经网络处理。2)快速响应:能做到极低延迟,响应速度比肩人类,且可以做到对话随时打断。现在GPT-4o能在短至232毫秒、平均320毫秒的时间内响应音频输入,而过去GPT-3.5平均延时为2.8秒、GPT-4为5.4秒。3)情感表达:回复有“人味”,情绪饱满,会带来极强的交互沉浸感。4)记忆:能回忆并联系此前“看”到的信息做出回答,而不是仅仅依靠当前输入。 交互型多模态大模型成本将降至几何?大模型降本趋势显著。8月,OpenAI发布更强且更具性价比的GPT-4o新版本,相比5月版本价格下降超40%至$4/100万tokens。按照这个趋势,我们预计以GPT-4o为代表的交互型多模态大模型的成本将继续快速下降,每百万tokens的推理成本或将在两年内降至美分量级。 交互型多模态大模型进展如何?OpenAI与谷歌双巨头抢滩,分别发布GPT-4o和AI智能体项目ProjectAstra,Meta也于2024年5月发布具有原生多模态特性的Chameleon-34B。国内的大模型多处于语音交互阶段,商汤领衔发布流式多模态交互大模型“日日新5o”,智谱面向C端开放“视频通话”功能。 为什么交互型多模态大模型有望带来应用的爆发?1)人类生活在一个由多种模态信息构成的世界,会同时收到多个互补的、融合的、不同模态的感官输入,多模态更符合人类感知周边、探索世界的方式。2)应用是连接人类意图与信息及技术实现的媒介,其本质是交互。我们认为从PC互联网时代,到移动互联网时代,再到现在的AI时代,应用发展的核心就是人机交互的不断进化与深化。所以在大模型迭代过程中,性能提高固然重要,但交互的升级也同样具有重大价值,交互型多模态大模型的出现有望推动人机交互变革——向更为简单的自然语言交互形式发展。 交互型多模态大模型会带来怎样的应用?我们将交互型多模态大模型的应用分为:1)数字智能,大模型提供软件形式的服务,主要应用场景包括教育、编程、医疗健康、游戏、情感陪伴等。2)具身智能,需要硬件支持来实现三维空间内的运动行为,如人形机器人、智能家居、智能座舱等。 交互型多模态大模型商业模式展望:1)聊天助手APP。2)作为基础模型接入各类应用。3)与终端OS深度融合成为AI时代的“超级入口”。 相关标的梳理:1)交互型多模态大模型:商汤-W、云从科技-UW;2)数字智能应用:金山办公、科大讯飞、虹软科技、美图公司;3)具身智能应用:海康威视、大华股份;4)算力:寒武纪、软通动力、海光信息、浪潮信息、中科曙光、神州数码。 风险提示:AI技术突破不及预期、终端智能需求不及预期、宏观经济增长不及预期、国际环境变化。 证券研究报告 行业专题报告|计算机 2024年09月03日 行业评级超配 前次评级超配 评级变动维持近一年行业走势 计算机沪深300 -3% -9% -15% -21% -27% -33% -39% 2023-092024-012024-05 相对表现 1个月 3个月 12个月 计算机 -5.39 -13.20 -35.38 沪深300 -3.28 -8.79 -13.66 分析师 郑宏达S0800524020001 13918906471 zhenghongda@research.xbmail.com.cn 联系人 卢可欣 16621642550 lukexin@research.xbmail.com.cn 相关研究 计算机:科技自主的道路是星辰大海—计算机行业2024年9月研究观点2024-08-30 计算机:美股软件股目前的估值和股价表现 —计算机行业周观点第22期2024-08-25 计算机:阿里腾讯加码AI决心坚定—计算机行业周观点第21期2024-08-17 索引 内容目录 一、什么是交互型多模态大模型?4 1.1交互型多模态大模型应具备什么特点?4 1.2交互型多模态大模型成本将降至几何?8 二、交互型多模态大模型进展如何?10 2.1海外:OpenAI与谷歌双巨头抢滩10 2.2国内:大模型多处于语音交互阶段,商汤智谱领衔升级视频交互功能11 三、为什么交互型多模态大模型有望带来应用的爆发?14 3.1视觉是获取外部信息最主要的途径,多模态更符合人类感知的方式14 3.2应用发展的核心就是人机交互模式的升级15 四、交互型多模态大模型会带来怎样的应用?19 4.1交互型多模态大模型在“数字智能”中的应用19 4.1.1教育19 4.1.2编程22 4.1.3医疗健康23 4.1.4办公25 4.1.5游戏26 4.1.6情感陪伴28 4.2交互型多模态大模型在“具身智能”领域应用29 4.2.1人形机器人29 4.2.2智能座舱30 4.2.3智能家居32 五、交互型多模态大模型未来形态35 5.1交互先行,端侧AI发展有望加速35 5.2交互型多模态大模型商业模式36 六、相关标的梳理38 七、风险提示38 图表目录 图1:GPT-4o能听出用户呼吸急促,并将其形象比喻成吸尘器,然后给出建议4 图2:用户写字表白,GPT-4o能快速识别字迹并高兴地感谢用户,输出时语气带着笑意4 图3:过去ChatGPT实现语音互动的三个步骤5 图4:谷歌Gemini具有原生多模态特性5 图5:Gemini多模态能力使用案例5 图6:Chameleon的模型结构与训练方法6 图7:GPT-4o响应速度提升7 图8:GPT-4o与人交流时会开一些合理的玩笑,如它会说“我今天要请客了”7 图9:ProjectAstra记住了曾经“看”到过的眼镜和苹果8 图10:OpenAI大模型的降本历程9 图11:GPT-4omini在基准测试中表现较好9 图12:GPT-4omini具有高性价比9 图13:GPT-4o新版本价格相比3个月前下降超40%10 图14:GPT-4o在多语言识别方面与Whisper-v3对比10 图15:GPT4o音频翻译基准测试表现10 图16:GPT-4o发布后ChatGPT移动端APP的收入高增11 图17:谷歌展示AI智能体项目ProjectAstra11 图18:日日新5.5核心指标12 图19:日日新5o识别小狗玩偶12 图20:日日新5o分析建筑环境及天气12 图21:日日新5o识别书籍并提供更多信息13 图22:日日新5o识别绘制的简笔画表情并分析情绪13 图23:用户可以用清言APP视频通话功能和AI玩“你画我猜”的游戏13 图24:清言APP视频通话功能可以辅助用户读论文13 图25:国内大模型聊天助手语音交互界面14 图26:多模态更符合人类与外界交互的方式15 图27:人机交互过程16 图28:人机交互的变革17 图29:人机交互将向最简单的形态发展18 图30:现代教育的特征与AIGC技术吻合19 图31:大模型拓展了AI技术在教育领域的应用场景20 图32:Duolingomax功能20 图33:GPT-4o在KhanAcademy上完成数学题辅导21 图34:GPT4o通过视频完成数学问题辅导21 图35:GPT-4o识别物体并输出西班牙语21 图36:GPT4o模拟面试21 图37:AGI完全体与教育畅想22 图38:GPT4o代码能力演示23 图39:远程协作平台Multi23 图40:GPT-4o与Bemyeyes结合为盲人提供实时助手24 图41:AIGC贯穿医疗全流程25 图42:GPT4o当会议助手26 图43:GPT-4V可以基于游戏画面生成用户行为预测以及NPC行为建议27 图44:GPT4o唱生日快乐歌28 图45:Figure01背后的大模型技术30 图46:智能座舱多种交互方式31 图47:智能座舱多维度信息的融合31 图48:绝影FlexInterface生成个性化交互界面32 图49:生成式AI赋能智能家居的价值33 图50:萤石AI技术策略33 图51:萤石蓝海大模型34 图52:演示元萝卜光翼灯使用方言回答问题34 图53:元萝卜光翼灯产品34 图54:前OpenAI高管AndrejKarpathy对LLMOS的构想35 图55:Copilot读取PC屏幕内容,辅助用户完成《我的世界》相关任务36 图56:AIAgent帮用户规划旅行、购票、更新日历等37 图57:“PC互联网时代-移动互联网时代-AI时代”入口演进37 表1:OpenAI在医疗健康领域的应用实践24 表2:部分游戏公司的AI布局动作27 表3:智能座舱Agent场景31 一、什么是交互型多模态大模型? 交互型多模态大模型是指跨越单一模态的限制,支持文本、音频、图像、视频等各种模态任意组合的输入输出,能做出实时的、“类人”的理解和反馈,可以跟人无缝交流的大模型,目前最具代表性的是OpenAI的GPT-4o。GPT-4o里的“o”是Omni的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。 交互型多模态大模型的核心在于其极强的多模态理解与生成能力,即能够融合各种类型的信息进行统一的语义、情景分析和上下文关联,从而更好地理解用户意图、实现接近人类的复杂情境理解和反应,然后生成自然流畅、富有情感的语音输出,使机器的反馈听起来像人类,增强交互的真实感。这类模型可以同时分析处理语音、手势、面部表情等多种输入方式,甚至它能感受到用户的呼吸节奏;而输出时,它能模仿人类的情感状态如喜悦、悲伤或愤怒等,然后通过调整语调、节奏和音量来表达相应的情绪,使交互过程更加人性化,且可以做到随时打断。 图1:GPT-4o能听出用户呼吸急促,并将其形象比喻成吸尘器,然后给出建议 资料来源:OpenAI2024春季发布会、西部证券研发中心 图2:用户写字表白,GPT-4o能快速识别字迹并高兴地感谢用户,输出时语气带着笑意 资料来源:OpenAI2024春季发布会、西部证券研发中心 1.1交互型多模态大模型应具备什么特点? 我们总结交互型多模态大模型特点如下:原生多模态、快速响应、情感表达、记忆。 1)原生多模态:跨文本、视频和音频等模态端到端训练的大模型,所有输入和输出都由同一神经网络处理。 在GPT-4o之前,ChatGPT会将其它模态转为单一模态处理,例如要实现语音对话功能, 需三个独立模型来完成三个步骤:语音转文本→GPT3.5/GPT-4→文本转语音,即首先一个简单模型将音频转录为文本,然后大模型GPT-3.5或GPT-4接收文本并输出文本,最后再由另一个简单模型将该文本转换回音频。但这种方法意味着信息顺势,即这三个模型中最关键的大模型在处理时会丢失大量信息,大模型无法直接观察用户的语气、停顿、音调、背景音等等,而这些在纯文本环境中难以被准确捕捉和表达的信息对理解对话意图和情绪状态至关重要,尤其是在需要高度情境感知和互动的场景中。 原生多模态的GPT-4o则将图像、文字、语音甚至视频等多种编码集成到一个模型中。在训练过程中,这些不同模态的数据被统一输入给模型内部学习。当不同模态的信息相关且指向同一类事物时,它们的内部表征是非常相似的。在生成阶段,模型可以更加灵活地利用统一的表征进行不同模态的生成。 图3:过去ChatGPT实现语音互动的三个步骤 资料来源:X(@DrJimFan)、腾讯科技微信公众号、西部证券研发中心 谷歌的Gemini也是原生多模态模型。根据Gemini论文,Gemini一开始就在不同模态上进行预训练,并利用额外的多模态数据进行微调以提升有效性,包括图像、图表、截图、PDF和视频等,并能产生文本和图像输