您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:AI应用之PDF篇:高粘性场景,国内外厂商各有千秋,未来可期 - 发现报告
当前位置:首页/行业研究/报告详情/

AI应用之PDF篇:高粘性场景,国内外厂商各有千秋,未来可期

信息技术2024-11-04杨烨、李宇轩财通证券G***
AI应用之PDF篇:高粘性场景,国内外厂商各有千秋,未来可期

PDF+AI,赋能高效办公。PDF阅读与编辑,是严肃办公应用的高粘性工具,“+大模型”和“大模型+”是两条产业落地路线。办公领域是AI落地优选场景之一,更注重大模型的正确性、效率与溯源准确度,我们认为AI在办公领域的赋能体现在两个方面:(1)查询知识库:对于企业内、外部数据的及时查询、对于当前处理文档表格类数据的分析与总结,希望借助大模型的知识、推理能力实现办公提效;(2)执行操作命令:对于繁杂重复性工作,或不便于UI交互的连续操作,用户希望通过自然语言实现RPA(机器流程自动化),也就是办公场景的Agent。当前主流PDF厂商Adobe、福昕软件、万兴科技、金山办公都推出了PC端或云端的AI对话窗口,同时也有大模型厂商如文心一言、讯飞星火、Kimi等推出了在大模型交互窗口添加PDF文档的功能,并制定了不同的商业化模式,可以视为“+大模型”和“大模型+”的两种不同形式。 外接基础大模型,“文本+UI”控制奠定应用软件基础形态。“+大模型”模式下,实现“文本+UI”的高效配合,以及与应用软件know-how结合的流程自动化技术将构筑产品的壁垒。我们认为,C端办公工具类应用(如Office、PDF类)“+大模型”的模式,主要体现在外接通用基础大模型API提供服务,并结合专用场景定制开发(与基础大模型做适配,或训练小模型满足特定功能)。其中,为了接入大模型功能,需要对操作界面进行重塑,添加AI助手面板,便于与模型交互;同时,也应做好Agent相关适配,实现文本控制操作命令功能。 投资建议:(1)生成式AI的高速发展,将持续推升AI底层算力需求,建议关注AI基座产业链的公司,如NVIDIA、台积电、AMD、博通、ORACLE、MICROSOFT、AMAZON、ALPHABET、海光信息、协创数据、中科曙光、曙光数创、寒武纪、英维克、神州数码、紫光股份、VERTIV、美光科技等。 (2)AI在办公领域实现商业化推广,办公软件厂商有望持续提升用户粘性与续费率,建议关注金山办公、福昕软件、万兴科技、合合信息、Adobe等。(3)Agent高速发展为AI PC、AI手机、AI耳机等AI终端打开了新思路,建议关注联想集团、传音控股、漫步者等。 风险提示:技术迭代不及预期;商业化落地不及预期;政策支持不及预期; 全球宏观经济风险。 1PDF+AI,赋能高效办公 PDF阅读与编辑,是严肃办公应用的高粘性工具,“+大模型”和“大模型+”是两条产业落地路线。办公领域是AI落地优选场景之一,更注重大模型的正确性、效率与溯源准确度,我们认为AI在办公领域的赋能体现在两个方面:(1)查询知识库:对于企业内、外部数据的及时查询、对于当前处理文档表格类数据的分析与总结,希望借助大模型的知识、推理能力实现办公提效;(2)执行操作命令:对于繁杂重复性工作,或不便于UI交互的连续操作,用户希望通过自然语言实现RPA(机器流程自动化),也就是办公场景的Agent。当前主流PDF厂商Adobe、福昕软件、万兴科技、金山办公都推出了PC端或云端的AI对话窗口,同时也有大模型厂商如文心一言、讯飞星火、Kimi等推出了在大模型交互窗口添加PDF文档的功能,并制定了不同的商业化模式,可以视为“+大模型”和“大模型+”的两种不同形式。 图1.当前主流PDF对话AI工具 从商业实践来看,PDF厂商外接基础大模型可以实现盈亏平衡,但AI工具的盈利属性较弱,更多用于增强用户使用粘性,提升用户续费率。根据OpenAI批量API价格,以及用户使用量来测算PDF厂商的接入成本,单次使用输入和输出的token数量我们分别假设为50、1000,进而得到使用不同型号的模型情况下,Adobe、福昕软件与万兴科技的API成本,并根据其定价估计出AI功能的毛利率水平。 由于GPT-4单价较高,厂商接入成本过大,可能导致较严重的亏损,我们预计办公文档类应用在未来较长一段时间不会外接GPT-4;我们认为,厂商会根据用户提问的复杂度分配模型调用,将GPT-4o、GPT-4o-mini、GPT-3.5组合使用,进而实现AI工具的盈亏平衡。 图2.PDF厂商接入OpenAI大模型的估算成本(批量价格) 2外接基础大模型,“文本+UI”控制奠定应用软件基础形态 “+大模型”模式下,实现“文本+UI”的高效配合,以及与应用软件know-how结合的流程自动化技术将构筑产品的壁垒。我们认为,C端办公工具类应用(如Office、PDF类)“+大模型”的模式,主要体现在外接通用基础大模型API提供服务,并结合专用场景定制开发(与基础大模型做适配,或训练小模型满足特定功能)。其中,为了接入大模型功能,需要对操作界面进行重塑,添加AI助手面板,便于与模型交互;同时,也应做好Agent相关适配,实现文本控制操作命令功能。 2.1Adobe:AI Assistant多文档分析,输出内容详尽 Adobe可一次性上传600页以内长文档,并实现长段落交互。Adobe推出的AI Assistant功能,深度集成到Acrobat工作流程中,旨在提高文档生产力。AI Assistant可在桌面、Web和移动设备上使用,包括Adobe Acrobat Reader、Adobe Acrobat桌面版(Windows和macOS)与Acrobat在线版等。Adobe可一次上传10份文档,实现同时处理600页长文本,随着上传文档容量扩大,未来有望建立个人文档资料库,实现便捷的资料查询与对话分析。 图3.AdobeAcrobat推出AI Assistant功能 图4.AI Assistant做文本总结 溯源功能强大。Adobe的优势在于溯源非常清晰,能够将生成内容准确定位到PDF文档原文位置,并框选提示。 图5.AI Assistant生成内容溯源清晰 Adobe调用GPT-4o,可详尽回答用户对文档的提问。针对《Movie Gen: A Cast of Media Foundation Models》这篇论文,我们测试了问题“请找出全文关于‘flowmatching’的描述,并详细阐述该训练方法的作用”,Adobe的AI Assistant会逐一找到论文原文并分析作用,大幅提升对论文的理解效率。 图6.AdobeAI Assistant针对性问答能力强 2.2福昕软件:AI助手Smartcommand实现文本控制编辑 福昕软件可通过云端使用AI助手功能,提供Smart command文本编辑PDF的功能。福昕AI助手可实现PDF文档总结、内容改写、实时问答、文档智能解析及增强问答、文本翻译、语法纠错等基础功能,此外相比Adobe多了Smart command功能,可直接在功能栏点选需要执行的命令,或在对话框直接输入控制语句,如:删除文档的第1,3-5,17页,AI将自动执行编辑命令。我们认为,Smart command体现了在工具类文档内发展的Agent的重要方向之一,即通过“自然语言-大模型-函数库-执行操作”的方式,实现从文本到操作命令的转化。另一种实现Agent的方式是操作系统层面的控制(如近期Anthropic发布的computer use功能),同过对当前页面的识别控制鼠标点击的操作,考虑到应用众多以及UI的复杂度,我们预计这类方法更容易应用到更加通用平台的操作控制,短期内难以在细分应用界面中普及。 图7.福昕编辑器新增AI助手功能 图8.福昕AI助手可解读PDF或执行PDF命令 图9.SmartCommand功能具有丰富的编辑指令 图10.PDF指令通过文本控制编辑过程 福昕AI对“请找出全文关于‘flow matching’的描述,并详细阐述该训练方法的作用”的回答更为简单扼要。我们认为,此处与Adobe的差异主要源于文本生成所采用的模型,Adobe采用GPT-4o,推测福昕主要采用GPT-3.5。 图11.福昕AI助手可实现原文高亮溯源 2.3万兴科技:PDF对话与AI聊天随意切换 万兴科技针对国内外推出AI工具面板功能,可实现AI聊天、PDF对话自由切换。万兴科技AI工具面板设计较为丰富与灵活,顶部有AI分项应用,包括对话、总结、翻译、语法检查、生成、AI生成检测等功能。相比其他竞品,万兴PDFelement右上角有“AI knowledge card”,集成了全文总结、要点提示等多项内容,避免了反复在文本框提问的过程,阅读更为直接方便。万兴PDF通过选择文本内容,可直接进行语法检查或翻译,集成了众多文档处理工具。 图12.万兴PDF的AI对话工具海外版增加AI Knowledge Card模块 图13.万兴AI工具语法检查功能 图14.万兴AI工具翻译功能 万兴PDF可选择在文档内直接与大模型交互聊天,避免了页面切换的过程。通过选择“ChatwithAI”,可切换至与本文PDF无关的交流,成为用户便捷的AI助手,增强了软件使用粘性。 图15.万兴PDF可切换“AI聊天”与“PDF对话”功能 图16.万兴PDF“Chat with AI”功能提供便捷聊天对话窗口 2.4金山办公:WPS AI划词实现便捷AI分析 WPS AI功能贯穿文档、表格、幻灯片、PDF,从流式文档到版式文档,从文本生成到数据分析,基于大模型基座赋能办公领域各个应用场景,在PDF领域有如下典型功能: 文档问答,通过AI问答快速解读文档,支持内容溯源。通过WPS AI文档问答发起询问,可快速找到想要了解的内容。还可通过WPS AI智能推荐的相关问题,深入理解知识点。生成内容标注引用原文出处,点击直接跳转对应页面,溯源可查。 全文总结,快速提炼文档内容。几百页的超长文档,一键快速全文总结,通过智能算法进行精准提炼,可快速掌握文章主旨和核心观点,减轻阅读负担。 划词解释、翻译,顺畅阅读无障碍。遇到不理解的专业术语,直接鼠标划取让WPS AI解释,提供即时整体释义以及重点词句解析。对于需要加强记忆的内容,可一键采纳生成批注。阅读外文刊物时,可直接选中语句让WPS AI翻译。 图17.金山WPS AI功能赋能流式与版式文档 图18.金山WPS AI在PDF回答内容详实可溯源 支持长文档处理,兼顾准确性。相比于国内其他PDF工具,金山WPS AI可处理PDF文档长度明显更长,对于类似招股书等长文档的分析依然较为准确。 图19.金山WPS AI可解析招股书等超长文档 选中文字后支持高效互动。WPS AI的划词功能较为便捷,选中文档内容后,除了自动弹出可选高亮等常用功能之外,还有AI润色、AI解释、翻译、总结,并支持浮窗内AI交互,提高阅读效率。 图20.金山WPS AI划词功能提升AI分析便捷度 2.5Kimi:网页版应用实现便捷PDF阅读解析 相较Adobe、福昕软件、万兴科技等PDF厂商,Kimi的长文本能力是“大模型+PDF”的应用落地基础,在形式上有所类似,但商业模型明显不同。Kimi是国内知名的大模型公司,其长上下文能力使得在阅读解析多PDF内容方面具备天然优势,一次可上传多达50个文件。在上传文档之后,点击文档即可弹出右侧PDF阅读器面板,直接在网页对照阅读PDF内容。对于PDF厂商,用户的维持订阅、续费PDF编辑器产品是主要收入和利润来源,因此AI功能更关注如何提升用户的使用流畅度与便捷度(如提供输入常用语等),增强用户粘性;而对于大模型厂商,目前主要处于免费提供AI功能的状态,且上传的PDF无法编辑,Kimi目前也无法直接在PDF内溯源,更多是打造用户和AI交互的流量入口,未来在C端实现流量变现,在B端实现API变现。 图21.Kimi导入PDF后在侧边栏可阅读 图22.Kimi底部工具栏可添加多文档与常用对话命令 Kimi擅于长文本输入输出,在回答“请找出全文关于‘flow matching’的描述,并详细阐述该训练方法的作用”的问题时,可以分点叙述,条理较为清晰,但缺点在于无法在PDF内溯源。 图23.Kimi对PDF内容进行长段落解