火山引擎虚拟数字人技术与应用
1. 火山引擎虚拟数字人简介
火山引擎虚拟数字人是一种以虚拟数字人形式替代真人员工和客户进行沟通的服务,提供可视化、智能化的交互服务,为企业提供高度拟人化的服务型数字员工。
2. 技术体系
2D数字人技术体系
- 文本/语音驱动:包括唇形、身份/表情、姿态拟合等。
- 关键技术:人脸换脸、人脸编辑、人脸美化、五官改变关键点检测、换头动作生成、动作预测、虚拟试穿、人体姿态估计、面部生成、头部口型修正、人脸分割、人脸转正等。
- 优势:T4单卡20核CPU下支持1080p/25fps视频流,10路并发;支持公有云接口调用及私有化部署;支持打断及通过SSML插入动作;支持音色切换、多语种、多方言;唇形准确率高达98.6%;5分钟数据即可完成基本定制;整体自然度MOS评测可达3.9。
3D数字人技术体系
- 文本/语音驱动:包括唇形、表情系统、人脸重建、面部捕捉、唇形运动迁移等。
- 关键技术:单目动捕、头部驱动算法、肢体高级动作系统、引擎功能数据修正、多目动捕、动作重定向、离屏渲染、换装/配饰、摄像机系统、背景更换、背景音乐匹配、场景特效动画采样、转场动画、图片轮播等。
- 制作流程:原图设计、灰模制作、材质制作、渲染测试、面捕动捕数据精修、数据采集、驱动模型训练、引擎能力集成、上线。
3. 应用
- 平台内容生产:支持实时交互。
- 应用场景:3D金融面审、电商直播等。
4. 展望
- 提升表现力:增强面部合成的情感表现力和肢体动作表现力。
- 加强感知能力:引入多模态感知能力。
- 加强定制化能力:探索角色定制。
- 降低成本:积累大模型数据,探索小数据量边界;完善迁移方案,实现小成本完成成熟能力复制。