报告编委 报告指导人黄勇 爱分析 合伙人&首席分析师 报告执笔人文鸿伟 爱分析 高级分析师 外部专家(按姓氏拼音排序) 王琳容联云北区售前负责人 朱风云灵伴智能灵伴研究院院长 特别鸣谢(按拼音排序) 报告摘要 大模型支撑的生成式AI,让人类社会有望步入通用人工智能时代,拥有广阔的应用前景,有望赋能千行百业。 当前生成式AI的落地整体处于初级阶段,不同模态的落地时间表差异明显,企业需求主要集中在数字化程度高、容错率相对较高的领域,以借助中间件调用大模型能力为主要方式。数字内容产业、客户服务是生成式AI渗透的典型行业和场景。 AIGC+数字内容:数字经济快速发展,带来国内数字内容消费需求的持续快速增长,但国内数字内容产业面临需求变化快、供给侧内容整体过剩而优质供给不足的问题。以长音频数字内容生产为例,AIGC能够助力内容生产的工程化、高质量、个性化。 AIGC+客户服务:大模型依托自身强大泛化能力优势,有望给国内智能客服领域的服务前、服务中、服务后各环节带来效能提升。但由于存在效果不明、数据安全等问题,短期内大模型很难对现有智能客服体系实现完全替代和颠覆,厂商需要探索如何在融合大模型能力的同时实现模式突 破。 目录 1.报告综述1 2.AIGC+数字内容5 3.AIGC+客户服务22 4.结语36 关于爱分析38 研究咨询服务39 法律声明40 报告综述 6|2023昶ⴔ區·欰䧭䒭AI䎾欽㹊騨䫣デ 1.报告综述 大模型主导的生成式AI,尤其是GPT-4的发布,让人类社会看到了通用人工智能时代的曙光。这意味着,作为生产力工具甚至是数字时代的“新基建”的人工智能技术,不用再局限于单一或有限场景,而是能够在众多领域像人类一样进行思考、解决问题,并进行持续、快速的自我进化,因此,大模型主导的生成式AI,将拥有极为广阔的应用前景,有望赋能千行百业。 1.1政策端:中央定调,地方跟进,协力推动产业发展 人工智能产业已成为全球新一轮科技革命和产业变革的核心驱动力之一,对制造业、金融、医疗等国民经济的诸多行业有着深刻影响。党中央、国务院历来高度重视人工智能产业的发展,近5年来,几乎每年都会有相应政策出台,以持续推动我国人工智能产业的高水平发展和应用。 2023年4月28日,中央政治局会议提出,“要夯实科技自立自强根基,培育壮大新动能。要重视通用人工智能发展,营造创新生态,重视防范风险”。区别于以往会议和文件中泛指“人工智能”产业,这是中央政治局首次提及通用人工智能,为我国人工智能产业尤其是通用人工智能的发展奠定了总基调。 在中央会议精神的指引下和产业发展需要的驱动下,地方政府政策积极跟进,促进人工智能产业政策的进一步落地。 2023年5月末,北京、上海、深圳三地政府接连发布人工智能产业政策文件。例如,5月30日,北京市发布《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023—2025年)》,强调要加快推动人工智能场景建设,牵引创新成果落地应用,打造一批标杆型示范应用场景,促进新技 术迭代和新应用增长。5月31日,《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023— 2024年)》,强调要提升产业集聚水平,打造全域全时场景应用,推进“公共服务﹢AI”、“城市治理 ﹢AI”、“千行百业﹢AI”,实施人工智能软件应用示范扶持计划,鼓励金融、商务、工业、交通等行业企业基于人工智能技术对现有生产、服务和管理方式进行升级。 1.2技术端:文本、语音模态先行,多模态或成人机交互终极状态 从技术构成来看,生成式AI包括基础层、模型层和应用层。基础层主要聚焦算力、数据集、Transformer及CLIP等基础生成算法,为模型层提供基础的资源支撑;模型层主要包括通用大模型和行业大模型两类,是整个AIGC技术生态的核心,为上层应用提供智能化能力;应用层主要是大模型在行业、价值链上的具体展开,是AIGC真正落地和实现价值创造的场景和窗口。 图1:AIGC市场全景地图 人工智能的中远期目标,是模拟人类的认知和思维,进行多维度、多感官信息的摄入和思考。而作为AIGC生态的核心,当前,大模型本身可根据可交互对象的类型进行分类,分成不同模态,包括文本、音频、图像、视频等不同的单模态以及跨模态。例如,专注进行文本和语言文字交互的大语言模型 (LLM)、可在文本-图片-视频等模态间进行跨模态内容交互的多模态模型。 从国外最新的技术进展来看,OpenAI的GPT-4可进行文本、图像两种模态输入,Meta开源的跨感官AI模型ImageBind甚至可实现文本、图像、视频、热点图、深度数据、IMU等6种模态的输入,更多的模态,则意味着更多的交互和应用场景组合。 国内AIGC产业目前尚处于发展初期,各项技术发展进度不尽相同,技术侧的成熟度在一定程度上决定了当前应用场景的选择范畴与效果上限。目前,以文本生成、音频生成应用相对广泛,比如,TTS语音合成技术已经在国内有比较广泛的应用,此外,从国内当前公布的大模型类型主要以进行文本和 语言文字交互的LLM为主,便可见一斑。图像、视频、跨模态等,当前要么是在技术酝酿与突破期,要么目前还只是在有限场景下进行局部尝试,尚未规模化展开。 从发展趋势来看,与人类与外界交互最为接近的多模态一定是未来的发展方向,甚至是终极状态。 1.3需求端:落地侧重于借助中间件进行能力调用,企业规模及属性决定具体落地策略 AIGC的核心在于大模型。大模型引爆市场后,需求端不乏观望摇摆者,但很多行业已开始跃跃欲试。据爱分析调研,目前能源领域落地进展相对靠前,证券等金融领域也在政策的驱动下,开始尝试AIGC的应用。 首先,从需求方向来看,高昂的算力成本、超大规模的数据集要求等高壁垒,加之市场上第三方大模型云集,考虑到专业性、效率及ROI,目前甲方的AIGC需求主要是与大模型厂商或中间件供应商进 行合作来调用大模型能力,在传媒、教育、营销、客服、数字人等数字化程度更高、容错率相对较高的领域,需求旺盛,而在医疗等容错率低的领域进展则相对缓慢。 其次,从需求落地目标来看,甲方当前阶段主要目的是新技术尝试、用于组织内部的提效降本,待技术成熟或对内实验取得一定效果后,才会继续向终端用户侧的价值创造及传递场景转移。 最后,不同规模的组织落地生成式AI的策略不同。总体来看,组织获取AI能力无非自建、调用、直接用SaaS三种方式。企业具体的AIGC落地路径势必会结合自身规模、属性进行综合考量来做出选择。从企业规模来看,大中型企业倾向于自建大模型、基于中间件(思维链提示chain-of-thought prompting+微调等)进行能力调用,且采用能力调用方式者居多;小微企业资源有限,则更倾向于集合了底层大模型能力的SaaS,以最低成本实现大模型能力的直接应用、快速落地。从企业属性来 看,金融行业企业、央国企等对于合规及数据安全极为重视,即使不选择自建大模型,也会要求大模型以私有化部署方式来赋能自身应用。 图2:AIGC落地需求分解 综上,本报告选取当前受AIGC影响最为明显的数字内容产业、客户服务两个市场作为重点研究对象, 围绕相关组织的生成式AI应用实践展开研究。 AIGC+数字内容 6|2023昶ⴔ區·欰䧭䒭AI䎾欽㹊騨䫣デ 2.AIGC+数字内容 2.1数字内容产业发展现状 数字内容产业虽然在全球尚无统一定义,但核心是数字技术与内容创意的融合,是以信息化、数字化手段对文本、图像、声音、视频等信息素材进行生产、传递、消费的新兴产业,包括游戏、文化出版、影音产品、图像图形等诸多细分领域。 近年来随着移动互联网为代表的数字经济的快速发展,国内数字内容的消费需求持续快速增长。分别 由专家、用户所主导的PGC、UGC数字内容生产模式,已逐渐无法完全满足数字内容的多样性、效率需求,基于人工智能技术的AIGC,能够深刻、广泛赋能数字内容生产的各类场景和内容创作者,将对数字内容生产产生颠覆性影响。 当前,数字内容发展主要面临以下问题: 一方面,需求侧变化加速。随着Z世代群体逐步成为消费主力,作为互联网原住民的Z世代群体,更加追求个性、喜欢互动,对产品及服务的品质与颜值有更高要求,这使得需求侧的变化周期进一步被缩短,需求变化加快。 另一方面,内容整体过剩,但优质内容的有效供给相对不足,存在结构性供需错位。互联网平台、短视频平台、长音频平台等内容分发平台的崛起,为每个人都提供了低门槛内容制作和展示的渠道,在提升内容丰富度的同时,也客观上降低了内容质量。 上述需求侧与供给侧的不匹配,极大考验数字内容生产方的需求响应及验证能力。与文字、短视频等数字内容的细分领域不同的是,长音频数字内容很大程度上还处在PGC、PUGC阶段,能否在激烈的市场竞争中快速适应市场需求,对长音频数字内容创作者而言,尤为重要。同时,长音频是“知识+娱 乐”的复合性数字化内容,市场下一步有望迎来指数级增长。因此,本报告将以长音频数字内容生产为例进行重点分析。 2.2长音频数字内容生产发展历程 长音频数字内容的典型场景是有声书的制作,有声书早已成为我国居民的重要阅读媒介。随着4G/5G网络的普及、智能手机等为代表的移动互联网技术与产品的持续快速渗透,满足了消费者多场景化、碎片化阅读和交互需求的有声书市场在国内取得了长足的发展。《2022年中国在线音频市场分析》报告显示,越来越多的用户转向收听有声读物来填充碎片时间,大约三分之一成年人会定期收听有声书。因此,近年来,国内有声书市场以两位数的速度稳步增长。公开资料显示,2022年,国内有声书市场规模已接近百亿。和大多数行业类似,在经历了一系列无序竞争后,国内有声书市场开始步入精细化内容主导的质量竞争新阶段。 从发展过程来看,国内的长音频数字内容生产经历了传统人力驱动、AI为核心的技术驱动两大阶段。 图3:国内的长音频数字内容生产发展历程示意 在AI被深度融合到长音频数字内容生产领域之前,国内的有声书制作,相对传统。 一方面,从作业流程视角,传统的有声书包括画本/选角、录音、对轨、后期、审听及上线等众多流程,各环节基本依靠人力和经验来推动。例如,导演需要花整段时间通读话本,并梳理出整本有声书的角色及其关系,同时,包括旁白在内的所有内容均由真人配音演员按剧本按角色各自录制完成。 另一方面,从协作视角,传统模式下,不同环节、各角色分散使用不同工具软件,在成果整合与信息共享方面,需要强有力的组织协调。有声书的创作剧组通常包括导演、众多配音演员、后期专业技术人员等多种角色。各角色间工具不统一、工作进度和效率情况也并不透明,沟通协调任务艰巨。 由于效率偏低,传统人力驱动阶段,业界也有一些对于局部工具的尝试,以提升局部产出效率,但都没有对业务流程及产出效率有实质性的改善。 随着自然语言理解、语音识别等AI技术的不断成熟,业界开始尝试通过AI技术,尤其是通过行业大模型,来大幅提升整体作业效率。比如,可以通过AI来自动完成画本/选角的工作,大幅节省导演的时间;通过TTS语音合成技术,配置个性化的旁白音色,来智能、快速完成原来时间占比最高的旁白 工作等等。也有机构尝试通过引入经过预训练的、面向有声书行业的大模型,来进一步提升各环节工作的效率、精准度与质量。 2.3长音频数字内容生产目前面临的主要问题和挑战 进入新发展阶段后,长音频数字内容生产需求标准的持续抬升与现有供给侧之间的矛盾日显突出,很多依赖传统模式的中小工作室在失去平台扶持和补贴的大背景下,经营开始变得吃力。 1)作业模式严重依赖人力、经验驱动,难以应对需求的爆发、高质量、个性化趋势。传统模式下,整个作业方式是典型的“作坊式”生产,产能天花板明显,且依赖人工经验,内容质量容易产生明显波 动,难以将生产过程工程化,无法对快速变化的受众口味进行试水和内容的快速调整,以快速适应市场变化。 2)整体生产过程有待重新定义和优化。原有传统模式下,作业流程并没有结构性调整和优化,