GPT4全方位升级,AI商业化时代来临 ——AI跟踪报告之九 作者:光大证券电子通信行业首席分析师刘凯,执业证书编号:S0930517100002 2023年3月29日 证券研究报告 核心观点 GPT4与ChatGPT对比:全方位升级 GPT4为多模态模型,支持图片输入,文本能力升级; GPT4支持复杂性问题解决,可靠性与安全性显著提升;推出可预测深度学习堆栈,开源Evals评估框架。微软Copilot:AI商业化里程碑 Dynamics365Copilot:GPT4赋能业务全线。Dynamics365为整个微软商业应用产品线,带来由全新一代人工智能驱动的产品升级,为各项商业应用全面引入互动式的人工智能助手; Microsoft365Copilot:开启全新工作方式。微软使用微软生成式AI助手Copilot对Microsoft365工具套件进行升级,采用OpenAI 推出的GPT-4,集成到Word、Excel、PowerPoint、Outlook和Teams等应用中,开启全新工作方式; PowerPlatformCopilot:低代码未来前景打开。基于GPT能力提供AI-powered的帮助,让制作者可以用自然语言描述他们想要的应用、流程或机器人,然后Copilot可以在几秒钟内完成创建,并提供改进的建议。 国内巨头纷纷入局 百度:发布文心一言大模型,性能强大、功能丰富,为垂类应用落地提供强大支持; 华为:大模型布局多年,建立联合体推动产业化; 海康威视:AI开放平台为碎片化的行业应用场景提供了一站式算法训练平台,具备基于小样本数据训练高精度算法的能力; 大华股份:打造巨灵平台,提供一站式算法训练,包含上千个各种场景下的AI算子和预训练模型。投资建议:云端算力/边缘算力、模型/算法/数据、应用三个维度关注AI行业投资机会 云端算力:寒武纪、海光信息、芯原股份等; 边缘算力:翱捷科技、晶晨股份、瑞芯微、全志科技等; 模型/算法/数据:建议关注三六零(A股唯一自研大模型)、商汤科技(神经网络)等; 应用:海康威视、大华股份等。 招商基金 风险提示:ChatGPT信息泄露风险、虚假信息法律风险,行业研发不及预期风险。 目录 模型:GPT4相较ChatGPT全方位升级微软Copilot:AI商业化里程碑 国内巨头纷纷入局 投资建议:云端算力/边缘算力、模型/算法/数据、应用三个维度关注AI行业投资机会 风险分析 一、GPT4相较ChatGPT全方位升级 1、多模态模型:支持图片输入,文本能力升级 2、支持复杂性问题解决,可靠性与安全性显著提升 3、推出可预测深度学习堆栈,开源Evals评估框架 GPT-4支持图片输入,多模态模型功能强大。相较于GPT-3.5仅支持文字或代码的输入和输出,GPT-4支持图片输入,并生成说明、分类和分析结果(输入图片还处于内测阶段,尚未公开真正结果)。具体来说,GPT-4能够在用户输入散布式文本和图像后,自主生成文本输出(自然语言、代码等)。 根据OpenAI官网案例,GPT-4能够发现图片中的异常之处,明白“梗图”中的含义和笑点,甚至能直接阅读并分析带有图片的论文。 图1:GPT-4能够发现图片中的异常图2:GPT-4发现鸡块的排列与世界地图的联系图3:GPT-4能够解释论文内容 资料来源:OpenAI官网,光大证券研究所整理 资料来源:OpenAI官网,光大证券研究所整理 资料来源:OpenAI官网,光大证券研究所整理 在标准学术视觉基准测试中,GPT-4性能优于其它模型。OpenAI在一组标准学术视觉基准测试中对GPT-4的表现进行评估,根据结果,GPT-4在TextVQA、图表质量管理、AI2D等方面都显著优于其他模型。 此外,OpenAI表示,这并不完全代表GPT-4的能力范围,因为该模型被发现能够不断解决新任务,公司计划近期发布更多 分析和评估数据。 图4:GPT-4在文本、图片处理方面与SOTA等模型的对比 资料来源:OpenAI官网,光大证券研究所整理 注:OpenAI以机器学习模型设计的传统基准评估了GPT-4,结果显著优于现有大模型 文本能力方面,GPT-4的表现显著优于现有大型语言模型。GPT-4能够处理超过2.5万字的文本,允许长篇内容创建、扩展对话以及文档搜索和分析等应用场景。 OpenAI在为机器学习模型设计的传统基准测试(包括MMLU、HellaSwag、ARC等)中比较GPT-4与GPT-3.5、SOTA等模型的性能。结果表明,GPT-4在基准测试中的表现显著优于现有大型语言模型,并且在大部分的测试中优于最先进的SOTA模型。 图5:GPT-4在基准测试中的表现显著优于现有大型语言模型 资料来源:OpenAI官网,光大证券研究所整理 注:OpenAI以机器学习模型设计的传统基准评估了GPT-4,结果显著优于现有大模型 资料来源:OpenAI官网,光大证券研究所整理 MMLU基准(MultilingualMulti-LevelUnification,是一种新的基准测试,旨在评估多语言NLP模型的性能)常用于测试大规模多任务语言理解能力,涵盖自然科学、社会科学、艺术、人文等领域,通常使用英文编写。 OpenAI使用AzureTranslate将MMLU基准翻译成多种语言,并将GPT-4与其他语言模型应用测试。 资料来源:OpenAI官网,光大证券研究所整理 结果表明,GPT-4在包括拉脱维亚语、威尔士语和斯瓦希里语等多种小众语言上的表现,均优于GPT-3.5、Chinchilla、PaLM等语言模型的英语表现。 图6:GPT-4在MMLU基准测试中表现优于GPT-3.5、Chinchilla、PaLM等语言模型 GPT-4在人类模拟考试中的表现超越GPT-3.5。在没有专门培训的情况下,GPT-4在 律师考试、LSAT、GREQuantitative等测试中的得分基本全部高于GPT-3.5。 在律师资格考试(UniformBarExam)中,GPT-4的分数在应试者的前10%左右,显著优于GPT-3.5倒数10%左右的得分。 图7:GPT-4与GPT-3.5在各项考试中表现情况对比 资料来源:OpenAI官网,光大证券研究所整理 GPT-4在语言风格方面得到更新。与具有固定冗长语气和风格的经典ChatGPT不同,开发人员(普通用户也将会开放)可以通过描述在系统中规定AI的语言风格,即拥有“自定义”的功能。 图8:GPT-4拥有自定义语言风格的功能 资料来源:OpenAI官网,光大证券研究所整理 GPT-4在可靠性与安全性方面实现最好结果。OpenAI表示,在6个月的时间内通过对抗性测试程序和ChatGPT经验教训迭代调整GPT-4,在可靠性、真实性、可控性以及拒绝越界和敏感问题方面获得有史以来最好结果。相较GPT-3.5,GPT-4对禁止内容作出响应的可能性下降82%,生成可靠性内容的可能性提高40%。 然而,OpenAI仍然提示GPT-4在偏见、隐私和虚假信息等方面的风险。为此,OpenAI纳入更多人工反馈(包含ChatGPT用 户),并与50多位专家合作,在技术发展的同时提高AI的安全性。 图9:GPT-4响应不正确行为和敏感信息的可能性更低图10:不同主题下,GPT-4的对抗性测试结果显著优于其他模型 资料来源:OpenAI官网,光大证券研究所整理 资料来源:OpenAI官网,光大证券研究所整理 构建可预测的深度学习堆栈是GPT-4项目的重点之一。OpenAI开发基础设施和优化算法,能在多个模型中表现出可预测行为。为验证可预测性,OpenAI通过对使用相同训练方法但计算量少10000倍的模型进行推断,在内部代码库中准确预测GPT-4的最终损失。 为便于用户选择模型,开源Evals评估框架。Evals框架用于创建和运行基准,以评估GPT-4等模型,同时逐个样本检查性 能。使用Evals指导模型开发,方便用户将其应用于跟踪模型版本的性能和不断发展的产品集成。比如,Stripe使用Evals来 补充人工评估,以衡量其GPT驱动的文档工具的准确性。 OpenAI认为,准确预测未来的机器学习能力是安全性的重要组成部分。但相较于潜在影响而言,其并没有得到足够的重视。OpenAI正加大开发力度,为社会提供更好的未来系统预期指导。 图11:OpenAI代码库下一个单词预测图12:GPT-4扭转了逆向缩放(模型性能随规模扩大而下降)趋势 资料来源:OpenAI官网,光大证券研究所整理 请务必参阅正文之后的重要声明12 资料来源:OpenAI官网,光大证券研究所整理 目录 模型:GPT4相较ChatGPT全方位升级微软Copilot:AI商业化里程碑 国内巨头纷纷入局 投资建议:云端算力/边缘算力、模型/算法/数据、应用三个维度关注AI行业投资机会 风险分析 二、微软Copilot:AI商业化里程碑 1、Dynamics365Copilot:GPT4赋能业务全线 2、Microsoft365Copilot:开启全新工作方式 3、PowerPlatformCopilot:低代码未来前景打开 赋能销售人员随时快速响应。 助力客服人员时刻对答如流。 升级市场营销体验,轻松找到目标受众。 助力电商营销提效,智能生成个性化内容。 提升供应链敏捷性,将风险降到最低。 图13:人工智能赋能百行百业 资料来源:百度 Dynamics365Copilot赋能销售人员随时快速响应。在Dynamics365Sales和VivaSales中,Copilot可以编写给客户的电子邮件回复,在Outlook中自动生成一个Teams会议的总结邮件,从销售的CRM系统中自动提取产品、报价之类的细节,由Teams通话中总结出的核心要点一并汇总到邮件里。 Dynamics365Copilot助力客服人员时刻对答如流。在Dynamics365CustomerService中,能够针对聊天对话和电子邮件中的问 题,撰写出符合上下文语境的答案。 图14:Copilot自动生成邮件 资料来源:微软官方公众号 图15:Copilot虚拟客服 资料来源:微软官方公众号 Dynamics365Copilot升级市场营销体验,轻松找到目标受众。在Dynamics365CustomerInsights和Dynamics365Marketing 中的Copilot使营销人员能够简化他们在数据探索、受众细分和内容创建方面的工作流程: a)借助Dynamics365CustomerInsights中的Copilot,可以应对复杂的计算并且准确定位特定客户群体。 b)利用Dynamics365Marketing中的Copilot,市场人员可以创建一个支持检索辅助功能的全新目标客户类别。 图16:Dynamics365CustomerInsights 资料来源:微软官方公众号 图17:Dynamics365Marketing 资料来源:微软官方公众号 Dynamics365Copilot助力电商营销提效,智能生成个性化内容。在Dynamics365BusinessCentral中,Copilot能够为电子商务梳理和创建产品列表,快速自动生成商品简介。使用Shopify的BusinessCentral用户可以将其产品和简介快捷发布到Shopify平台上。 Dynamics365Copilot提升供应链敏捷性,将风险降到最低。对于Dynamics365SupplyChainManagement客户来说,Microsoft SupplyChainCenter中的Copilot能主动标记可能影响关键供应链流程的外部问题,筛选出受影响的订单。并自动生成电子邮件向 合作伙