行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告

信息技术2024-09-06-西部证券向***

AI智能总结

交互型多模态大模型是一种先进的AI技术，能够跨越单一模态的界限，支持文本、音频、图像、视频等不同模态的混合输入和输出，实现实时、高度拟人化的交互体验。以OpenAI的GPT-4o为代表，这类模型具备以下几个关键特点：

技术基础与进展

原生多模态能力：GPT-4o具备端到端处理文本、音频和图像数据的能力，无需将不同模态转换为单一形式后再处理。
快速响应：GPT-4o的响应速度得到显著提升，能够迅速理解并生成相关反馈。
情感表达：通过调整语音的语调、节奏和音量，GPT-4o能够模仿人类的情感状态，增强交互的真实感。
记忆能力：GPT-4o能够记住过去的信息，比如“看”到过的眼镜和苹果，以及学习过的对话历史。

应用潜力

交互型多模态大模型有望在多个领域引发应用爆发，主要因为：

视觉优势：视觉是人类获取外部信息的主要途径，多模态模型更能贴近人类的感知方式。
人机交互升级：应用的核心是人机交互模式的不断升级，以满足日益增长的需求。

具体应用示例

教育：辅助个性化教学，提供定制化学习资源和反馈。
编程：自动代码生成、调试和解释，提高开发效率。
医疗健康：提供个性化的诊断、治疗建议和健康指导。
办公：智能助理完成日常任务，提升工作效率。
游戏：增强游戏体验，提供角色互动和故事叙述。
情感陪伴：提供情感支持，帮助用户缓解压力。

未来展望

端侧AI发展加速：交互型多模态大模型将促进边缘计算和终端设备上的AI应用加速发展。
商业模式探索：随着技术成熟，商业模式将逐渐清晰，可能包括订阅服务、个性化定制和商业化API等。

关键指标与案例

成本降低：GPT-4o系列模型的成本持续下降，提高了可访问性和经济性。
性能优化：如GPT-4o mini在特定任务上表现出色，性价比高。
技术突破：如GPT-4o在多语言识别、音频翻译和多模态理解方面的进步。

结论

交互型多模态大模型是AI技术的重要进展，其强大的多模态处理能力和高度拟人的交互体验，预示着在教育、医疗、娱乐等多个领域将带来革命性的变化。随着技术的不断进步和完善，预计未来将有更多创新应用涌现，进一步推动人工智能技术的发展和普及。

2024年深度行业分析研究报告内容目录一、什么是交互型多模态大模型？4 1.1交互型多模态大模型应具备什么特点？4 1.2交互型多模态大模型成本将降至几何？8 二、交互型多模态大模型进展如何？10 2.1海外：OpenAI与谷歌双巨头抢滩10 2.2国内：大模型多处于语音交互阶段，商汤智谱领衔升级视频交互功能11 三、为什么交互型多模态大模型有望带来应用的爆发？14 3.1视觉是获取外部信息最主要的途径，多模态更符合人类感知的方式14 3.2应用发展的核心就是人机交互模式的升级15 四、交互型多模态大模型会带来怎样的应用？19 4.1交互型多模态大模型在“数字智能”中的应用19 4.1.1教育19 4.1.2编程22 4.1.3医疗健康23 4.1.4办公25 4.1.5游戏26 4.1.6情感陪伴28 4.2交互型多模态大模型在“具身智能”领域应用29 4.2.1人形机器人29 4.2.2智能座舱30 4.2.3智能家居32 五、交互型多模态大模型未来形态35 5.1交互先行，端侧AI发展有望加速35 5.2交互型多模态大模型商业模式36 六、相关标的梳理38 图表目录图1：GPT-4o能听出用户呼吸急促，并将其形象比喻成吸尘器，然后给出建议4 图2：用户写字表白，GPT-4o能快速识别字迹并高兴地感谢用户，输出时语气带着笑意4 图3：过去ChatGPT实现语音互动的三个步骤5 图4：谷歌Gemini具有原生多模态特性5 图5：Gemini多模态能力使用案例5 图6：Chameleon的模型结构与训练方法6 图7：GPT-4o响应速度提升7 图8：GPT-4o与人交流时会开一些合理的玩笑，如它会说“我今天要请客了”7 图9：ProjectAstra记住了曾经“看”到过的眼镜和苹果8 图10：OpenAI大模型的降本历程9 图11：GPT-4omini在基准测试中表现较好9 图12：GPT-4omini具有高性价比9 图13：GPT-4o新版本价格相比3个月前下降超40%10 图14：GPT-4o在多语言识别方面与Whisper-v3对比10 图15：GPT4o音频翻译基准测试表现10 图16：GPT-4o发布后ChatGPT移动端APP的收入高增11 图17：谷歌展示AI智能体项目ProjectAstra11 图18：日日新5.5核心指标12 图19：日日新5o识别小狗玩偶12 图20：日日新5o分析建筑环境及天气12 图21：日日新5o识别书籍并提供更多信息13 图22：日日新5o识别绘制的简笔画表情并分析情绪13 图23：用户可以用清言APP视频通话功能和AI玩“你画我猜”的游戏13 图24：清言APP视频通话功能可以辅助用户读论文13 图25：国内大模型聊天助手语音交互界面14 图26：多模态更符合人类与外界交互的方式15 图27：人机交互过程16 图28：人机交互的变革17 图29：人机交互将向最简单的形态发展18 图30：现代教育的特征与AIGC技术吻合19 图31：大模型拓展了AI技术在教育领域的应用场景20 图32：Duolingomax功能20 图33：GPT-4o在KhanAcademy上完成数学题辅导21 图34：GPT4o通过视频完成数学问题辅导21 图35：GPT-4o识别物体并输出西班牙语21 图36：GPT4o模拟面试21 图37：AGI完全体与教育畅想22 图38：GPT4o代码能力演示23 图39：远程协作平台Multi23 图40：GPT-4o与Bemyeyes结合为盲人提供实时助手24 图41：AIGC贯穿医疗全流程25 图42：GPT4o当会议助手26 图43：GPT-4V可以基于游戏画面生成用户行为预测以及NPC行为建议27 图44：GPT4o唱生日快乐歌28 图45：Figure01背后的大模型技术30 图46：智能座舱多种交互方式31 图47：智能座舱多维度信息的融合31 图48：绝影FlexInterface生成个性化交互界面32 图49：生成式AI赋能智能家居的价值33 图50：萤石AI技术策略33 图51：萤石蓝海大模型34 图52：演示元萝卜光翼灯使用方言回答问题34 图53：元萝卜光翼灯产品34 图54：前OpenAI高管AndrejKarpathy对LLMOS的构想35 图55：Copilot读取PC屏幕内容，辅助用户完成《我的世界》相关任务36 图56：AIAgent帮用户规划旅行、购票、更新日历等37 图57：“PC互联网时代-移动互联网时代-AI时代”入口演进37 表1：OpenAI在医疗健康领域的应用实践24 表2：部分游戏公司的AI布局动作27 表3：智能座舱Agent场景31 一、什么是交互型多模态大模型？交互型多模态大模型是指跨越单一模态的限制，支持文本、音频、图像、视频等各种模态任意组合的输入输出，能做出实时的、“类人”的理解和反馈，可以跟人无缝交流的大模型，目前最具代表性的是OpenAI的GPT-4o。GPT-4o里的“o”是Omni的缩写，也就是“全能”的意思，接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出。交互型多模态大模型的核心在于其极强的多模态理解与生成能力，即能够融合各种类型的信息进行统一的语义、情景分析和上下文关联，从而更好地理解用户意图、实现接近人类的复杂情境理解和反应，然后生成自然流畅、富有情感的语音输出，使机器的反馈听起来像人类，增强交互的真实感。这类模型可以同时分析处理语音、手势、面部表情等多种输入方式，甚至它能感受到用户的呼吸节奏；而输出时，它能模仿人类的情感状态如喜悦、悲伤或愤怒等，然后通过调整语调、节奏和音量来表达相应的情绪，使交互过程更加人性化，且可以做到随时打断。图1：GPT-4o能听出用户呼吸急促，并将其形象比喻成吸尘器，然后给出建议资料来源：OpenAI2024春季发布会、西部证券研发中心图2：用户写字表白，GPT-4o能快速识别字迹并高兴地感谢用户，输出时语气带着笑意资料来源：OpenAI2024春季发布会、西部证券研发中心 1.1交互型多模态大模型应具备什么特点？我们总结交互型多模态大模型特点如下：原生多模态、快速响应、情感表达、记忆。 1）原生多模态：跨文本、视频和音频等模态端到端训练的大模型，所有输入和输出都由同一神经网络处理。在GPT-4o之前，ChatGPT会将其它模态转为单一模态处理，例如要实现语音对话功能，需三个独立模型来完成三个步骤：语音转文本→GPT3.5/GPT-4→文本转语音，即首先一个简单模型将音频转录为文本，然后大模型GPT-3.5或GPT-4接收文本并输出文本，最后再由另一个简单模型将该文本转换回音频。但这种方法意味着信息顺势，即这三个模型中最关键的大模型在处理时会丢失大量信息，大模型无法直接观察用户的语气、停顿、音调、背景音等等，而这些在纯文本环境中难以被准确捕捉和表达的信息对理解对话意图和情绪状态至关重要，尤其是在需要高度情境感知和互动的场景中。原生多模态的GPT-4o则将图像、文字、语音甚至视频等多种编码集成到一个模型中。在训练过程中，这些不同模态的数据被统一输入给模型内部学习。当不同模态的信息相关且指向同一类事物时，它们的内部表征是非常相似的。在生成阶段，模型可以更加灵活地利用统一的表征进行不同模态的生成。图3：过去ChatGPT实现语音互动的三个步骤资料来源：X（@DrJimFan）、腾讯科技微信公众号、西部证券研发中心谷歌的Gemini也是原生多模态模型。根据Gemini论文，Gemini一开始就在不同模态上进行预训练，并利用额外的多模态数据进行微调以提升有效性，包括图像、图表、截图、PDF和视频等，并能产生文本和图像输出，所以Gemini可以泛化并无缝理解分析不同模态信息组合起来的输入，并输出多张图像与文本交织的结果。例如，GeminiUltra接收到用户输入的示例和问题，示例内容是当给定蓝色和黄色两种颜色毛线团时，可以织成蓝猫和黄耳朵的蓝狗。随后，Gemini被要求利用两种新颜色的毛线团——粉色和绿色，生成富有创意的建议。最后，Gemini回答可以制作一个果核为粉色的牛油果，或制作一只耳朵为粉色的绿兔子，并附上了非常贴合回答的图片。图4：谷歌Gemini具有原生多模态特性图5：Gemini多模态能力使用案例资料来源：《Gemini:AFamilyofHighlyCapableMultimodalModels》、西部证券研发中心资料来源：《Gemini:AFamilyofHighlyCapableMultimodalModels》、西部证券研发中心 Meta于2024年5月发布的Chameleon-34B也具有原生多模态特性，它将所有模态— —图像、文本和代码等表示为离散的token，并采用统一的基于transformer的架构针对约10万亿个tokens对应的混合模态数据从头开始进行端到端训练。因此，Chameleon能够对任意混合模态文档进行推理以及生成。Chameleon的核心在于其完全token-based的架构，图像和文本都被表示为一组离散的tokens，这种设计允许模型使用统一的transformer架构来处理图像和文本序列，而不需要单独的图像或文本编码器。图6：Chameleon的模型结构与训练方法资料来源：《Chameleon:Mixed-ModalEarly-FusionFoundationModels》、西部证券研发中心 2）快速响应：大模型能做到极低延迟，响应速度比肩人类，且可以做到对话随时打断。 GPT-4o响应速度直升一个数量级，能在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类在对话中的反应速度一致，且可以随时打断，而过去的GPT-3.5平均延时为2.8秒、GPT-4为5.4秒。 GPT-4o低延时以及随时打断特性跟端到端训练直接关联。GPT-4在进行语音识别时，需要等待用户说完一句话才能完成整句识别；识别完成后，将整句话输入到后续的大模型中生成回复；再之后才能调用语音合成模型来转换成语音。而现在GPT-o将这些功能集成到一个模型中，各部分之间的依赖性降低，因为模型内部表征已经融合在一起，所以可以更快地开始生成语音输出，而不必等待前面的所有信息都处理完毕。简单来说，端到端大模型一般采用流式输入的方式，即在接收到部分信息时就开始处理；同时，随着对话继续进行，模型将不断地吸收新的信息，对回复进行实时调整。这种设计让大模型具备了边听边说的能力，即在用户讲话的过程中就开始准备回应，一旦用户暂停，模型可以立即给出反馈。这种机制极大地减少了响应延迟，使交互变得更加自然流畅，同时也支持用户在任何时候打断模型，因为模型总是保持着对当前对话状态的最新理解。图7：GPT-4o响应速度提升响应速度（秒） 5.4 延时降低一个数量级 0.32 6 5 4 3 2 1 0 GPT-4 GPT-4o 资料来源：新智元微信公众号、OpenAI2024春季发布会、西部证券研发中心 3）情感表达：回复有“人味”，情绪饱满，会带来极强的交互沉浸感，是增强用户粘性的关键。 GPT-4o不仅能很好地理解用户情绪，还能反馈以非常饱满的情绪，它会惊讶，会笑，会随着用户的情绪激动起来，语气中充满了细节。在发布会上，当测试者要求GPT-4o用“最戏剧性”的方式去讲故事的时候，它表现得很像话剧演员，能给故事各个情节配上合适的情绪；而在用户要求以歌声结束这个故事时，GPT-4o甚至会叹气。在探讨大模型发展及影响时，我们往往倾向于聚焦技术层面的突破、性能的提升，然而AI除了提供实用的知识价值之外，还能够为用户带来另一种更为微妙但却至关重要的价值——情感价值。用户与技术之间的关系不仅仅只有单纯的信息层面的连接，还有情感层面的连接。对于许多用户来说，他们期望的不仅仅是高效的数据处理和信息检索，更在于技术能够以一种更加人性化

点击免费查看完整报告