行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

虚拟人深度产业报告

信息技术2024-02-08-量子位好***

AI智能总结

虚拟数字人深度产业报告

技术背景与市场规模

定义与特征：虚拟数字人是融合了CG、图像识别、动捕、语音合成等技术的综合产物，具备高度拟人化特征，包括外貌、交互能力和行为模拟。
分类：分为灵活的真人驱动型和基于深度学习的计算驱动型。
市场规模：预计到2030年，中国虚拟数字人市场规模将达2700亿元，其中身份型虚拟数字人市场规模约1750亿元，服务型虚拟数字人市场规模超过950亿元。

应用场景与发展趋势

服务型虚拟数字人：主要应用于替代真人服务，包括播报、简单交互等，以及个性化经济、电商、医疗康复等领域。
身份型虚拟数字人：侧重娱乐、社交，如虚拟IP、虚拟偶像等，尤其在虚拟世界（Metaverse）中扮演重要角色。
发展趋势：行业正从孵化培育阶段向B端场景成熟发展，预计未来B、C端应用成熟后，将形成数字资产及经济体系。

竞争格局与产业瓶颈

竞争格局：国内外在细分市场存在差异，主要体现在技术层面、商业模式、细分市场及发展路线。
产业瓶颈：主要源于技术门槛、客户积累和标准化复制难度。

产业链与未来展望

产业链：虚拟数字人产业链正在形成，各环节协同发展。
未来展望：预计虚拟数字人技术将更加成熟，应用场景将进一步拓宽，成为Metaverse中的关键交互载体。

关键技术与应用案例

关键技术：CG建模、语音识别、图像识别、动捕、深度学习等。
应用案例：魔珐科技、相芯科技、追一科技等公司在虚拟数字人领域有深入研究与实践，如虚拟助手、虚拟客服、虚拟偶像等。

结论

虚拟数字人技术正处于快速发展阶段，市场潜力巨大。随着技术进步和应用场景的不断拓展，预计未来几年内，虚拟数字人将在多个行业领域发挥重要作用，成为连接物理世界与数字世界的桥梁。

虚拟数字人深度产业报告技术背景篇定义、关键词、分类、技术细节产业现状篇市场规模、发展阶段、细分场景及判断、产业链、竞争格局、中外对比、产业瓶颈 1 核心观点 1.虚拟数字人的三大特征是虚拟化、NLP\CV\语音等多种技术共同成熟、高度拟人化。在技术层面上分为灵活的真人驱动型和基于深度学习的计算驱动型。 2.在2030年，我国虚拟数字人整体市场规模将达到2700亿。身份型虚拟数字人约1750亿。服务型虚拟数字人总规模超过950亿。目前市场仍处于前期培育阶段。 3.虚拟数字人的应用可分为服务型虚拟人和身份型虚拟人。替代真人服务中的虚拟主播和虚拟IP中的虚拟偶像是目前的市场热点。 4.虚拟数字人产业链。各厂商规划在未来对核心技术进行外包。 6.国内外在细分市场上的竞争差异较大，具体包含技术层面、商业模式、细分市场及发展路线。 7.行业门槛及瓶颈主要来源于三方面：上限偏高的技术及美术门槛；客户积累带来的业务认知；在各细分市场亟待实现的标准化复制特别感谢：魔珐科技、相芯科技、追一科技、中科深智、火山引擎、小冰公司、黑镜科技、科大讯飞、搜狗、百度及相关行业从事者对本报告的深度参与（排名不分先后）。如需进一步交流探讨、加入垂直社群等，请联系量子位官方或量子位分析师：刘萌媛（请标注所在单位+职位）邮箱：mengyuan@qbitai.com 技术背景 1.1定义虚拟数字人指存在于非物理世界中，由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用，并具有多重人类特征（外貌特征、人类表演能力、人类交互能力等）的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等，代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。 UneeQ虚拟助手相芯科技虚拟客服魔珐科技漫画IP齐麟虚拟直播搜狗&新华社虚拟主持人新小微 Source：UneeQ官网，相芯科技产品手册、魔珐科技产品手册、网络公开报道虚拟—存在于非物理世界中，不同场景实现难度不同目前，虚拟数字人主要以图片、视频、实时直播、实时动画等方式存在于电子屏中，如APP、小程序、软硬一体显示设备。在未来，VR设备与全息投影也将成为其重要存在方式。需注意的是，尽管其存在方式均在非物理世界中，由于各场景所需的时延（如直播等实时场景要求低时延，但内容生成场景无该要求）、驱动方式（计算驱动对模型的深度学习能力有极高要求）等不同，对技术、运营等要求差异较大。数字—依托多项技术存在，相关技术成熟成为其发展重要推动力虚拟数字人是典型的多技术综合产物。除CG建模+真人驱动的类别外，多模态技术与深度学习成为其核心点。该部分将在技术中详细展开。多位从业人员认为，虚拟数字人近年的发展来源于CG（ComputerGraphics，利用计算机进行视觉设计和生产）、语音识别、图像识别、动捕等相关技术的共同成熟。人—在外表、行为、交互行为等方面高度拟人化，外在表现和交互效果已成为核心发展路线外表：虚拟数字人的面部长相和整体形象。会受到虚拟数字人类别（如直接借用真人形象、高保真建模、风格化）、制作细节（对汗毛、皮肤、头发等细节的建模）、渲染水平、设计审美等影响三星Neon 基于真人采集 UnrealEngineMetahumanCreator 高保真建模英雄联盟Seraphine 风格化 Genies基于真人明星的虚拟数字人风格化行为：虚拟数字人的面部表情、形体表达、语音表述等。会受到驱动方式（真人驱动、计算驱动、预制调节等）、驱动模型类别（精细面部肌肉驱动、语音合成模型中对语气词、韵律的处理等）、训练数据、驱动模型精度等影响交互：虚拟数字人与现实世界的交互水平，包括回答内容、肢体反应等，会受到语音识别能力、自然语言理解及处理水平、知识图谱、预先设置知识库等影响。其具体特征可拆分为“虚拟”、“数字”及“人”三个部分。在试用了相关产品后，我们认为，“人”是其中的核心的因素。高度拟人化为用户带来的亲切感、关怀感与沉浸感是多数消费者的核心使用动力。能否提供足够自然逼真的相处体验，将成为虚拟数字人在各个场景中取代真人，完成语音交互方式升级的重要标准。 1.2技术细节从技术层面来看，虚拟数字人可以分为真人驱动型和计算驱动型。后者是近年来多模态技术和深度学习发展的技术集大成者。在真人驱动中，在完成原画建模和关键点绑定后，动捕设备或摄像头将基于真人的动作/表情等驱动虚拟数字人。由于背后有真人操作，真人驱动型在动作灵活度、互动效果等方面有明显优势，一方面能够在影视内容的创作中减低生产成本，为影视行业降低门槛，推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中，帮助虚拟数字人完成大型直播、现场路演等互动性、碎片化活动。事实上，这种技术思路可以看作是传统影视制作中，CG技术的进一步延续。近年来主要的技术突破在于动作捕捉环节。随着图像识别技术，姿势、表情等识别算法的进步，昂贵的惯性或光学动捕设备不再是驱动的必备工具。普通摄像头结合理想的识别算法通用能实现较为精准的驱动（如iPhone12摄像头已可支持简单的动作捕捉），显著降低了精细虚拟内容生成的门槛。美国虚拟主播CodeMiko 1.形象设计及建模基于IP设计或真人偶像绘制原画，进行面部及身体3D建模，选择关键点 2.建模绑定将识别关键点映射至模型上，进行绑定。关键点绑定的数量及位置影响最终效果。 3.表演捕捉利用动作捕捉设备或特定摄像头+图像识别，捕捉在形体、表情、眼神、手势等方面的关键点变化。 4.驱动及渲染真人演员（在虚拟偶像中称为中之人）根据制作需要进行相应表演，实时驱动虚拟数字人表演。在较为精细的制作中，会需要根据真人演员和建模的区别进行重定向，并对动作、眼神、手指等采用不同的驱动方式。需要时需进行语音合成，形成特定设置语音 5.生成内容，进行互动进行直播，或录制其动作生成内容真人驱动型技术流程采用真人驱动方法调整虚拟主播的动作及表情在计算驱动型中，虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动，在渲染后实现最终效果。计算驱动的虚拟数字人最终效果受到语音合成（语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯）、NLP技术（与使用者的语言交互是否顺畅、是否能够理解使用者需求）、语音识别（能否准确识别使用者需求）等技术的共同影响。尽管在特定方向上，各感知类技术已有的商业化能力已足以支撑，然而，但要达成理想的综合效果，需要该公司在三个方面同时具有较强的综合能力。这也间接导致国内开展计算驱动型虚拟数字人业务的公司，大多是在感知技术方面有较强的综合实力，相对成熟的AI技术公司。 1.设计形象。扫描真人形态及表演、采集驱动数据利用多方位摄像头，对通用/特定模特进行打点扫描（视最终需求可进行全身或局部扫描），采集其说话时的唇动、表情、面部肌肉变化细节、姿态等数据计算驱动型技术流程计算驱动型技术流程 2.形象建模，进行绑定设计所需的模型，或基于特定真人进行高还原度建模。进行关键点绑定。关键点绑定的数量及位置影响最终效果。当需要基于真人照片生成虚拟内容时，一类做法是将通用的人脸模型迁移至该真人照片上，形成虚拟形象，实质为表情迁移。另一类则是生成动漫类效果，基于预先设置的形象分类算法，将真人照片中的眼型、发型等元素进行分类，并与预先设置的动漫元素进行匹配，最终生成动漫式的虚拟形象。 3.训练各类驱动模型：决定最终效果的核心步骤利用深度学习，学习模特语音、唇形、表情参数间的潜在映射关系，形成各自的驱动模型与驱动方式。充足的驱动关键点配合以精度较高的驱动模型，能够高还原度的复原人脸骨骼和肌肉的细微变化，得到逼真的表情驱动模型。魔珐科技等业界领先的模型可组合出超千种表情效果，并包含眼神驱动。科大讯飞、竹间智能等公司会对语音/文本中的因素进行提取，增加情感驱动模型等。目前为止，大多数厂商的驱动模型大多是语音-唇形，语音-驱动。动作、手势等驱动大多依靠人为现场指令或预设置驱动。对于需对特定真人定制化的数字化虚拟数字人，部分公司会基于在通用驱动模型的基础上，结合少量真人驱动数据训练定制化驱动模型。这种情形可视作预训练模型+小样本学习。 4.内容制作：基于输入的语音（或由输入文本转化的语音），预测唇动、表情等参数核心的技术流程是基于输入的语音，或首先基于TTS技术（Text-to-speech，语音合成技术），将输入的本文转化为语音。基于语音，结合第3步得到的驱动模型，并利用生成对抗模型GAN选出最符合现实的图片，推理得到每帧数字人的图片。通过时间戳，将语音和每帧的数字人图片进行结合。 5.进行渲染，生成最终内容。直播时进行实时渲染为保证在特定场景下能够实现实时低延迟渲染，计算框架的大小、算力供给等技术问题同样会影响到虚拟数字人的最终生成效果附加步骤: 针对需要进行交互的虚拟数字人，生产商会预先设置有问答库、知识图谱等，并承接入虚拟数字人的对话系统。当判定技术中的核心要素时，我们需要回归到虚拟数字人的核心价值，也即前面所提及的“拟人化”，这需要虚拟数字人在形象或交互上具有技术优势。在技术层面主要体现为以下三点。 CG建模/图像迁移技术影响外观呈现 NLP交互技术影响交互体验 CV等深度学习模型影响驱动效果体现为虚拟数字人外观的拟人程度。国内外在该项上的技术差异，部分导致了目前国内外玩家主要专注于不同的细分场景和发展路径以对话能力为核心。继文本对话助手、语音AI助手后，该技术继续在虚拟数字人中发挥核心作用，可以视作为虚拟数字人的大脑。在AI交互助手方面已有理想成效，如小冰等，公司能够为其添加较好的通用式互动能力。追一科技等公司则通过知识图谱、业务问答库、对话型工程引擎等增强虚拟数字人的业务互动能力。受数据量、计算框架、关键特征点等因素深刻影响。能否呈现自然的面部表情变动、肢体变动等，在极大程度上取决于语音驱动的深度模型效果。除此之外，能否对情感等因素进行特别设计，同样会产生重要影响。值得一提的是，2021年，FableStudio的新虚拟数字人CharlieandDeck背后将有GPT-3支撑，生成类语言模型的加入有望显著提升虚拟个人助手的日常交互能力，这也将是GPT-3实现商业化的全新途径。行业现状 2.1市场规模基于国内外多家虚拟数字人厂商的业务，本报告将虚拟数字人按照其产业应用划分为两类：服务型虚拟数字人和身份型虚拟数字人。服务型虚拟数字人身份型虚拟数字人核心功能功能性，提供服务•替代真人服务，完成内容生产、简单功能•多模态AI助手，提供日常陪伴、关怀等服务身份性，用于娱乐/社交•虚拟IP/偶像，推动虚拟内容生产•虚拟世界第二分身，用于社交娱乐及Metaverse 产出定位 •现实世界中主持人、导游、购物主播等服务型角色的虚拟化•具有关怀感和真实感的AI助手 •虚拟偶像或为真人偶像的辅助分身•个体在虚拟世界（或Metaverse）中的第二分身代表应用 •虚拟主播、虚拟老师、标准化内容制作•虚拟关怀师、虚拟陪伴助手 •虚拟偶像•VRChat、虚拟形象构建应用产业价值 1.降低已有服务型产业的成本，为存量市场降本增效2.提升AI助手的交互效果，扩展其接受度与适用场景 1.为未来的虚拟化世界提供人的核心交互中介，在增量市场创造新价值增长点2.降低虚拟内容的制作门槛服务型虚拟数字人身份型虚拟数字人 12.1% 14.9% 2030年我国虚拟数字人整体市场规模人民币2703亿 87.9% 85.1% 64.6% 亿 35.4% 亿经过测算，我们认为，在2030年，我国虚拟数字人整体市场规模将达到2700亿。其中，得益于虚拟IP的巨大潜力，以及虚拟第二分身的起步，身份型虚拟数字人将占据主导地位，约1750亿，并逐步成为Metaverse中

点击免费查看完整报告