微软365 Copilot发布,划时代革新办公体验。2023年3月16日晚,微软发布基于AI的365 Copilot,内容涵盖办公各个领域,其中,PowerPoint中的Copilot可以一键生成PPT,将现有的书面文件转化为带有演讲者笔记和资料来源的演示文稿,或从一个简单的提示或大纲开始一个新的PPT,点击一个按钮就能浓缩冗长的演示文稿,并使用自然语言命令来调整布局、重新编排文本和动画安排。我们认为,大模型将以全新技术完全革新办公体验,大幅提升效率,改善人们生产生活的方式。 拆分Copilot生成PPT的功能,模型多样化能力提供基础。拆分现阶段Copilot生成PPT的功能,我们认为,想要达到Copilot的效果,模型需要具备的基础能力包括文本摘要、文本生成、视觉示例显示、修改图片等。1)文本摘要:可以协助理解文档内容,分段、总结,并生成PPT大纲或演讲备注。文本摘要为生成式AI较为基础的能力之一,早在GPT-2就被训练来阅读维基百科的文章,能够生成文章的摘要;到GPT-4时,将InstructGPT的论文截图上传变能够马上读完并写摘要。2)文本生成:为LLM大模型的基本技能,在PPT场景下,文本生成的应用包括根据提示的主题增加PPT内容、修改文稿的语气态度等。3)视觉示例显示:KOSMOS-1参数量仅为16亿,能够原生处理广泛的感知密集型任务,如视觉对话、视觉解释、视觉问答、图像描述生成、简单的数学公式、OCR和带描述的零样本图像分类。 视觉示例显示能力若应用在办公软件中,可以根据每页PPT总结好的文字内容,进行自动配图、排版。4)修改图片:Visual ChatGPT可以支持文字+图片的交互方式。除了可以进行简单的对话外,Visual ChatGPT还可以接收复杂的视觉问题或视觉编辑指令,用户还可以给出反馈,并要求修改结果,从而实现更加智能化、人性化的交互体验。模型修改图片能力应用在办公软件中,可以根据文字指令,修改PPT的配图或排版,增加简单的动画效果。 国产大模型加速入局,办公领域落地未来可期。国内互联网及AI厂商在大模型领域相继布局,在文本摘要、文本生成、文生图等上述必需能力方面已经有了较大进展,为模型应用于PPT等办公软件打下基础。1)通用PPT:3月27日,百度智能云开启闭门交流会,文心千帆展示生成通用PPT的能力。根据红点新闻报道,工作人员输入“长安逸达汽车介绍,不超过10页PPT”后,文心千帆自动生成了一个比较通用的PPT,随后工作人员因PPT内容不完整输入了链接,让文心千帆通过这个链接来修改PPT内容。结果只花三分钟,就做出了一份既有亮点,也有图片的格式精美、内容丰富的PPT。2)文本摘要:根据阿里云峰会,钉钉接入“通义千问”测试之后,可以自动生成工作方案,也可以在会议纪要后自动生成总结和待办事项。3)文生图:腾讯基于自身在自然语言处理和图像多模态等方面积累的经验,采用stable diffusio和Imagen两套模型并行研发的方案,打造了通用场景的太极文生图大模型;与此同时,商汤文生图大模型拥有超10亿参数,支持二次元、三次元等多种生成风格,用户无需复杂的编程知识,只需给定提示词即可生成相应图像,最高可实现6K高清图,每2秒就能生成1张512*512分辨率的图片。我们认为,随着国产大模型的加速布局,文本摘要、文本生成、文生图等技能的逐步进步,国内大模型办公领域落地未来可期。 投资建议:办公相关:金山办公、彩讯股份、微软等。 风险提示:AI技术迭代不及预期、经济下行超预期风险、行业竞争加剧风险。 1.Copilot可一键生成PPT,模型多样化能力提供基础 微软365 Copilot发布,划时代革新办公体验。2023年3月16日晚,微软发布基于AI的365 Copilot,内容涵盖办公各个领域,PowerPoint中的Copilot可以一键生成PPT。 Copilot可以将现有的书面文件转化为带有演讲者笔记和资料来源的演示文稿,或者从一个简单的提示或大纲开始一个新的PPT。点击一个按钮就能浓缩冗长的演示文稿,并使用自然语言命令来调整布局、重新编排文本和动画安排。例如: 在Word文档的基础上创建一个五张幻灯片的演示文稿,并包括相关的图片资料。 将这个演示文稿合并成一个三张幻灯片的摘要。 根据文字命令自动生成每页切换动画。 图表1:Copilot在word基础上建立幻灯片 图表2:Copilot自动生成每页切换动画 图表3:Copilot将复杂文字提炼成演讲提示 拆分现阶段Copilot生成PPT的功能,我们认为,想要达到Copilot的效果,模型需要具备的基础能力包括文本摘要、文本生成、视觉示例显示、修改图片等。 1)文本摘要:文本摘要能力可以协助理解文档内容,分段、总结,并生成PPT大纲或演讲备注。文本摘要为生成式AI较为基础的能力之一,根据机器之心,早在GPT-2就被训练来阅读维基百科的文章,能够生成文章的摘要;发展到GPT-4,把InstructGPT的论文截图发送给GPT-4,它能够马上读完并写摘要,GPT-4指出InstructGPT主要工作是训练大语言模型遵循人类反馈,并简要介绍了InstructGPT的训练方法,然后进行简单总结。 图表4:维基百科文章实际的开头部分被用作GPT-2训练数据集的标签 图表5:将InstructGPT的论文截图发送给GPT-4能够写摘要 2)文本生成:文本生成为LLM大模型的基本技能,ChatGPT为基于纯解码器的Transformer自生成语言模型,通过使用大量文本数据进行无监督预训练,解码器的任务是生成文字,通过当前步的文本信息进行对下一个字的预测。在PPT场景下,文本生成的应用包括根据提示的主题增加PPT内容、修改文稿的语气态度等。 图表6:GPT文字生成方式 3)视觉示例显示:视觉示例显示可以使办公软件根据每页PPT总结好的文字内容,进行自动配图、排版。微软亚洲研究院在论文《Language Is Not All You Need: Aligning Perception with Language Models》中介绍了多模态大规模语言模型(MLLM)——KOSMOS-1,参数量仅为16亿。除了各种自然语言任务,KOSMOS-1模型能够原生处理广泛的感知密集型任务,如视觉对话、视觉解释、视觉问答、图像描述生成、简单的数学公式、OCR和带描述的零样本图像分类。 图表8:KOSMOS-1生成的示例(蓝色框是输入提示,粉色框是 图表7:KOSMOS-1模型原生支持零样本和少样本学习设置下的语言、感知 4)修改图片:修改图片能力要求模型可以根据文字指令,修改PPT的配图或排版,增加简单的动画效果。Visual ChatGPT是一种智能交互系统,它将不同的视觉基础模型与ChatGPT相结合,使得用户可以通过发送语言和图像与AI系统进行交互。与传统的ChatGPT仅支持文字交互不同,Visual ChatGPT可以支持文字+图片的交互方式。除了可以进行简单的对话外,Visual ChatGPT还可以接收复杂的视觉问题或视觉编辑指令,用户还可以给出反馈,并要求修改结果,从而实现更加智能化、人性化的交互体验。 发送和接收不仅是语言而且是图像。 提供复杂的视觉问题或视觉编辑指令,需要多个AI模型之间的协作和多步骤操作。 它能够根据用户反馈修改结果。 图表9:用户输入摩托车与草丛图片并要求去掉摩托车 图表10:根据用户反馈修改完成的图片只剩下草丛 2.国产大模型加速入局,办公领域落地未来可期 目前国内互联网及AI厂商在大模型领域相继布局,在文本摘要、文本生成、文生图等上述必需能力方面已经有了较大进展,为模型应用于PPT等办公软件打下基础,国产大模型应用于办公领域未来可期。 1)文心千帆已展示生成通用PPT的能力:3月27日,百度智能云开启闭门交流会,正式推出“文心千帆”大模型平台,现场演示中,可实现三分钟做PPT。根据红点新闻报道,工作人员输入“长安逸达汽车介绍,不超过10页PPT”后,文心千帆自动生成了一个比较通用的PPT,随后工作人员因PPT内容不完整输入了链接,让文心千帆通过这个链接来修改PPT内容。结果只花三分钟,就做出了一份既有亮点,也有图片的格式精美、内容丰富的PPT。 图表11:文心千帆发布会 2)通义千问在钉钉测试文本摘要功能:根据阿里云峰会,钉钉接入“通义千问”测试之后,可以自动生成工作方案,也可以在会议纪要后自动生成总结和待办事项。比如当被拉入一个新群聊,钉钉可基于群内此前的聊天内容,自动生成聊天摘要,帮助用户快速了解上下文,再也不用手动爬楼,群聊聊到共识动作,还能自动生成待办。 图表12:钉钉视频会议生成会议摘要 图表13:钉钉讨论群生成智能摘要并添加待办 3)腾讯发布太极文生图大模型: 腾讯基于自身在自然语言处理和图像多模态等方面积累的经验,打造了通用场景的模型——太极文生图大模型,可以根据文本描述生成图像。太极文生图采用stable diffusio和Imagen两套模型并行研发的方案,并在原分辨率基础上进一步优化超分模型,支持1024 * 1024的分辨率。 太极-Imagen文生图模型:Imagen是2022年5月由google团队提出的15亿参数级别大规模文生图模型,它通过不同分辨率图片生成的级联式diffusion结构,结合强大的T5-XXL文本编码器,能够精准捕获输入文本中的语义,生成高分辨率的图片。腾讯团队成员对Imagen模型进行了实现和改进,主要采用自研的中文文本编码器,优化模型训练过程,结合latent diffusion model优化超分辨率模型训练过程,在内部亿级别的中文场景数据上进行训练,获得了在中文场景下自研文生图模型。 太极-SD文生图模型:stable diffusion训练时的输入为图像和对应的文本描述,图像通过VQ-GAN的encoder部分转换为隐空间上的向量ε,并通过中间的denoising u-net进行去噪;对应的文本信息则通过预训练文本encoder获取embedding,并通过cross-attention与denoising u-net中的各层进行融合,以指导图像的重建与生成。 图表14:Imagen模型结构 图表15:stable diffusion结构图 4)商汤AIGC文生图大模型可以风格定制化生成:商汤文生图大模型拥有超10亿参数,支持二次元、三次元等多种生成风格,用户无需复杂的编程知识,只需给定提示词,即可生成相应图像,最高可实现6K高清图。凭借超快的推理性能,商汤自研作画模型的文生图能力,每2秒就能生成1张512*512分辨率的图片。相比于Stable Diffusion,商汤作画大模型基于19年开始研发的通用大模型设计体系,采用更先进的大模型结构设计与大batch训练优化算法,模型参数量大小为前者数倍。核心技术包含了自研的hierarchical inferenceexperts,mixture of token experts,image quality-aware distributed training, texture-guided cross-attention learning等算法,使其具备更优的文本理解泛化性、图像生成风格广度以及图像高质量生成细节。 图表16:商汤自研模型与StableDiffusion生成对比 3.投资建议 办公相关:金山办公、彩讯股份、微软等。 4.风险提示 AI技术迭代不及预期风险:若AI技术迭代不及预期,NLP技术理解人类意图水平未能取得突破,则对产业链相关公司会造成一定不利影响。 经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响,NLP技术应用落地将会受限。 行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度