虚拟数字人 深度产业报告 技术背景篇 定义、关键词、分类、技术细节 产业现状篇 市场规模、发展阶段、细分场景及判断、产业链、竞争格局、中外对比、产业瓶颈 1 核心观点 1.虚拟数字人的三大特征是虚拟化、NLP\CV\语音等多种技术共同成熟、高度拟人化。在技术层面上分为灵活的真人驱动型和基于深度学习的计算驱动型。 2.在2030年,我国虚拟数字人整体市场规模将达到2700亿。身份型虚拟数字人约1750亿。服务型虚拟数字人总规模超过950亿。目前市场仍处于前期培育阶段。 3.虚拟数字人的应用可分为服务型虚拟人和身份型虚拟人。替代真人服务中的虚拟主播和虚拟IP中的虚拟偶像是目前的市场热点。 4.虚拟数字人产业链。各厂商规划在未来对核心技术进行外包。 6.国内外在细分市场上的竞争差异较大,具体包含技术层面、商业模式、细分市场及发展路线。 7.行业门槛及瓶颈主要来源于三方面:上限偏高的技术及美术门槛;客户积累带来的业务认知;在各细分市场亟待实现的标准化复制 特别感谢:魔珐科技、相芯科技、追一科技、中科深智、火山引擎、小冰公司、黑镜科技、科大讯飞、搜狗、百度及相关行业从事者对本报告的深度参与(排名不分先后)。 如需进一步交流探讨、加入垂直社群等,请联系 量子位官方或量子位分析师:刘萌媛(请标注所在单位+职位)邮箱:mengyuan@qbitai.com 技术背景 1.1定义 虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等,代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。 UneeQ虚拟助手相芯科技虚拟客服魔珐科技漫画IP齐麟虚拟直播搜狗&新华社虚拟主持人新小微 Source:UneeQ官网,相芯科技产品手册、魔珐科技产品手册、网络公开报道 虚拟—存在于非物理世界中,不同场景实现难度不同 目前,虚拟数字人主要以图片、视频、实时直播、实时动画等方式存在于电子屏中,如APP、小程序、软硬一体显示设备。在未来,VR设备与全息投影也将成为其重要存在方式。 需注意的是,尽管其存在方式均在非物理世界中,由于各场景所需的时延(如直播等实时场景要求低时延,但内容生成场景无该要求)、驱动方式(计算驱动对模型的深度学习能力有极高要求)等不同,对技术、运营等要求差异较大。 数字—依托多项技术存在,相关技术成熟成为其发展重要推动力 虚拟数字人是典型的多技术综合产物。除CG建模+真人驱动的类别外,多模态技术与深度学习成为其核心点。该部分将在技术中详细展开。多位从业人员认为,虚拟数字人近年的发展来源于CG(ComputerGraphics,利用计算机进行视觉设计和生产)、语音识别、图像识别、动捕等相关技术的共同成熟。 人—在外表、行为、交互行为等方面高度拟人化,外在表现和交互效果已成为核心发展路线 外表: 虚拟数字人的面部长相和整体形象。会受到虚拟数字人类别(如直接借用真人形象、高保真建模、风格化)、制作细节(对汗毛、皮肤、头发等细节的建模)、渲染水平、设计审美等影响 三星Neon 基于真人采集 UnrealEngineMetahumanCreator 高保真建模 英雄联盟Seraphine 风格化 Genies基于真人明星的虚拟数字人 风格化 行为: 虚拟数字人的面部表情、形体表达、语音表述等。会受到驱动方式(真人驱动、计算驱动、预制调节等)、驱动模型类别(精细面部肌肉驱动、语音合成模型中对语气词、韵律的处理等)、训练数据、驱动模型精度等影响 交互: 虚拟数字人与现实世界的交互水平,包括回答内容、肢体反应等,会受到语音识别能力、自然语言理解及处理水平、知识图谱、预先设置知识库等影响。 其具体特征可拆分为“虚拟”、“数字”及“人”三个部分。在试用了相关产品后,我们认为,“人”是其中的核心的因素。高度拟人化为用户带来的亲切感、关怀感与沉浸感是多数消费者的核心使用动力。能否提供足够自然逼真的相处体验,将成为虚拟数字人在各个场景中取代真人,完成语音交互方式升级的重要标准。 1.2技术细节 从技术层面来看,虚拟数字人可以分为真人驱动型和计算驱动型。后者是近年来多模态技术和深度学习发展的技术集大成者。 在真人驱动中,在完成原画建模和关键点绑定后,动捕设备或摄像头将基于真人的动作/表情等驱动虚拟数字人。 由于背后有真人操作,真人驱动型在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助虚拟数字人完成大型直播、现场路演等互动性、碎片化活动。 事实上,这种技术思路可以看作是传统影视制作中,CG技术的进一步延续。近年来主要的技术突破在于动作捕捉环节。随着图像识别技术,姿势、表情等识别算法的进步,昂贵的惯性或光学动捕设备不再是驱动的必备工具。普通摄像头结合理想的识别算法通用能实现较为精准的驱动(如iPhone12摄像头已可支持简单的动作捕捉),显著降低了精细虚拟内容生成的门槛。 美国虚拟主播CodeMiko 1.形象设计及建模 基于IP设计或真人偶像绘制原画,进行面部及身体3D建模,选择关键点 2.建模绑定 将识别关键点映射至模型上,进行绑定。关键点绑定的数量及位置影响最终效果。 3.表演捕捉 利用动作捕捉设备或特定摄像头+图像识别,捕捉在形体、表情、眼神、手势等方面的关键点变化。 4.驱动及渲染 真人演员(在虚拟偶像中称为中之人)根据制作需要进行相应表演,实时驱动虚拟数字人表演。在较为精细的制作中,会需要根据真人演员和建模的区别进行重定向,并对动作、眼神、手指等采用不同的驱动方式。 需要时需进行语音合成,形成特定设置语音 5.生成内容,进行互动 进行直播,或录制其动作生成内容 真人驱动型技术流程 采用真人驱动方法调整虚拟主播的动作及表情 在计算驱动型中,虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动,在渲染后实现最终效果。 计算驱动的虚拟数字人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)、NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果,需要该公司在三个方面同时具有较强的综合能力。这也间接导致国内开展计算驱动型虚拟数字人业务的公司,大多是在感知技术方面有较强的综合实力,相对成熟的AI技术公司。 1.设计形象。扫描真人形态及表演、采集驱动数据 利用多方位摄像头,对通用/特定模特进行打点扫描(视最终需求可进行全身或局部扫描),采集其说话时的唇动、表情、面部肌肉变化细节、姿态等数据 计算驱动型技术流程 计算驱动型技术流程 2.形象建模,进行绑定 设计所需的模型,或基于特定真人进行高还原度建模。进行关键点绑定。关键点绑定的数量及位置影响最终效果。 当需要基于真人照片生成虚拟内容时,一类做法是将通用的人脸模型迁移至该真人照片上,形成虚拟形象,实质为表情迁移。另一类则是生成动漫类效果,基于预先设置的形象分类算法,将真人照片中的眼型、发型等元素进行分类,并与预先设置的动漫元素进行匹配,最终生成动漫式的虚拟形象。 3.训练各类驱动模型:决定最终效果的核心步骤 利用深度学习,学习模特语音、唇形、表情参数间的潜在映射关系,形成各自的驱动模型与驱动方式。 充足的驱动关键点配合以精度较高的驱动模型,能够高还原度的复原人脸骨骼和肌肉的细微变化,得到逼真的表情驱动模型。魔珐科技等业界领先的模型可组合出超千种表情效果,并包含眼神驱动。科大讯飞、竹间智能等公司会对语音/文本中的因素进行提取,增加情感驱动模型等。 目前为止,大多数厂商的驱动模型大多是语音-唇形,语音-驱动。动作、手势等驱动大多依靠人为现场指令或预设置驱动。 对于需对特定真人定制化的数字化虚拟数字人,部分公司会基于在通用驱动模型的基础上,结合少量真人驱动数据训练定制化驱动模型。这种情形可视作预训练模型+小样本学习。 4.内容制作:基于输入的语音(或由输入文本转化的语音),预测唇动、表情等参数 核心的技术流程是基于输入的语音,或首先基于TTS技术(Text-to-speech,语音合成技术),将输入的本文转化为语音。基于语音,结合第3步得到的驱动模型,并利用生成对抗模型GAN选出最符合现实的图片,推理得到每帧数字人的图片。通过时间戳,将语音和每帧的数字人图片进行结合。 5.进行渲染,生成最终内容。直播时进行实时渲染 为保证在特定场景下能够实现实时低延迟渲染,计算框架的大小、算力供给等技术问题同样会影响到虚拟数字人的最终生成效果 附加步骤: 针对需要进行交互的虚拟数字人,生产商会预先设置有问答库、知识图谱等,并承接入虚拟数字人的对话系统。 当判定技术中的核心要素时,我们需要回归到虚拟数字人的核心价值,也即前面所提及的“拟人化”,这需要虚拟数字人在形象或交互上具有技术优势。在技术层面主要体现为以下三点。 CG建模/图像迁移技术影响外观呈现 NLP交互技术影响交互体验 CV等深度学习模型影响驱动效果 体现为虚拟数字人外观的拟人程度。国内外在该项上的技术差异,部分导致了目前国内外玩家主要专注于不同的细分场景和发展路径 以对话能力为核心。继文本对话助手、语音AI助手后,该技术继续在虚拟数字人中发挥核心作用,可以视作为虚拟数字人的大脑。在AI交互助手方面已有理想成效,如小冰等,公司能够为其添加较好的通用式互动能力。追一科技等公司则通过知识图谱、业务问答库、对话型工程引擎等增强虚拟数字人的业务互动能力。 受数据量、计算框架、关键特征点等因素深刻影响。能否呈现自然的面部表情变动、肢体变动等,在极大程度上取决于语音驱动的深度模型效果。除此之外,能否对情感等因素进行特别设计,同样会产生重要影响。 值得一提的是,2021年,FableStudio的新虚拟数字人CharlieandDeck背后将有GPT-3支撑,生成类语言模型的加入有望显著提升虚拟个人助手的日常交互能力,这也将是GPT-3实现商业化的全新途径。 行业现状 2.1市场规模 基于国内外多家虚拟数字人厂商的业务,本报告将虚拟数字人按照其产业应用划分为两类:服务型虚拟数字人和身份型虚拟数字人。 服务型虚拟数字人 身份型虚拟数字人 核心功能 功能性,提供服务•替代真人服务,完成内容生产、简单功能•多模态AI助手,提供日常陪伴、关怀等服务 身份性,用于娱乐/社交•虚拟IP/偶像,推动虚拟内容生产•虚拟世界第二分身,用于社交娱乐及Metaverse 产出定位 •现实世界中主持人、导游、购物主播等服务型角色的虚拟化•具有关怀感和真实感的AI助手 •虚拟偶像或为真人偶像的辅助分身•个体在虚拟世界(或Metaverse)中的第二分身 代表应用 •虚拟主播、虚拟老师、标准化内容制作•虚拟关怀师、虚拟陪伴助手 •虚拟偶像•VRChat、虚拟形象构建应用 产业价值 1.降低已有服务型产业的成本,为存量市场降本增效2.提升AI助手的交互效果,扩展其接受度与适用场景 1.为未来的虚拟化世界提供人的核心交互中介,在增量市场创造新价值增长点2.降低虚拟内容的制作门槛 服务型虚拟数字人 身份型虚拟数字人 12.1% 14.9% 2030年我国虚拟数字人整体市场规模 人民币2703亿 87.9% 85.1% 64.6% 亿 35.4% 亿 经过测算,我们认为,在2030年,我国虚拟数字人整体市场规模将达到2700亿。其中,得益于虚拟IP的巨大潜力,以及虚拟第二分身的起步,身份型虚拟数字人将占据主导地位,约1750亿,并逐步成为Metaverse中