中移智库 3D内容生成技术及应用场景探究 中国移动研究院业务研究所 2024年11月 摘要 中移智库 随大语言模型与生成式AI浪潮席卷全球,3D内容生成或将迎来自己的ChatGPT时刻。3D内容生成作为新兴3D资产制作手段,为内容创作模式带来了新的变革,极大促进了3D数字化内容生产的效率提升,引起业界的广泛关注。本文探讨了3D内容生成技术的主流方法及其应用领域,尤其在文生3D和图生3D方面,业界已取得不少有代表性的进展。预计3D内容生成将在游戏、电影、通信等领域有广泛的应用,推动数字内容生态的繁荣发展。 一、3D内容生成简介 从最初的基于几何建模的手工创作,到如今的海量数据驱 动的AIGC3D生成,3D内容创作的发展经历了多个阶段: 手工3D建模阶段:从1960年代起,计算机3D图形学的基础理论逐渐确立,研究人员提出了如多边形网格、样条曲线和 中移智库 NURBS曲面等各种建模技术,并开始利用光栅化和光线追踪算法生成更加逼真的图像。初期3D内容的生成依赖于专业人员使用建模软件进行手动创建,早期的3D建模方法和工具较为原始,3D模型的创建主要依靠艺术家和设计师使用专业软件手工建模,工作流程包括几何建模、纹理贴图、光照设置等,整个过程耗时且成本较高。这一时期的3D内容生成工作量大、耗时长,对 建模人员的技术要求较高。 基于扫描与重建阶段:随着计算机硬件和传感器技术的发展,3D扫描与自动化重建技术逐渐兴起,激光扫描和结构光扫描技术能够获取物体和场景的高精度点云数据,并重建其3D模型。这一阶段,3D扫描与重建被广泛用于文物保护、医疗成像、逆向工程等领域,三维模型的生成效率和精度都得到了提升, 不过生成的模型通常还需要后期处理,以优化模型效果和细节。基于AI的智能3D生成阶段:在深度学习等技术驱动下,3D 中移智库 内容生成进入了新的智能化阶段。生成对抗网络(GAN)、变分自编码器(VAE)等模型能够从大量数据中学习并生成新的3D内容,被用于3D模型生成、纹理映射和风格迁移等任务。神经辐射场(NeRF)技术的提出,以及大型语言模型(LLM)和扩散模型(DM)的发展,进一步推动了3D内容生成的能力,现阶段3D 内容生成模型具备了从文本、图像中生成对应3D模型的能力: 文生3D(Text-to-3D)是指通过输入文字描述来生成对应的3D模型。使用自然语言作为与用户交互的方式已经愈发成熟,这种生成方式具有高度的灵活性和创造性,用户可以通过简单的文字描述表达自己的创意和需求,然后由生成式模型生成相应的3D模型。文生3D中,生成质量、 多样性和效率是目前业界关注的关键问题。 图生3D(Image-to-3D)是指通过输入二维图像来生成三 维模型。这种方法通常利用了深度学习等技术,通过对大 中移智库 量二维图像数据的学习,能够从一张二维图像中推断出物体的三维形状和结构。例如一些应用允许将用户上传的照片转换为3D模型,为用户提供更加生动的视觉体验。此外还可以通过布局或线稿引导来生成相应的3D模型。例如,在建筑设计中,设计师可以通过提供建筑的平面图和剖面图,由3D生成式系统生成建筑的3D模型。3D模型细节还原性、形状和结构推断准确性等是目前业界普遍关注 的关键问题。 二、3D内容生成分类 按生成内容类别的不同,3D内容生成可以进一步细化为物 体生成、场景生成、人体生成、人脸生成。 物体生成:物体生成主要聚焦从文本或图像中生成特定类别的3D物体模型,通常也是三维环境及场景生成的基础。Text2Shape(2018)是首个尝试利用自然语言描述生成3D形状 的工作,基于ConditionalWassersteinGAN。Nvdia的 GET3D(2022)提出了一种可以生成高质量纹理3D形状的生成模 型,能够生成显式纹理3D网格。 中移智库 场景生成:场景生成的难度比单个物体更大,因为它需要考虑物体之间的空间关系,可以创建丰富多样的场景,为游戏、建筑设计、工业设计等行业提供强大的支持。DreamScene(2024)基于显式表征3D高斯泼溅(3DGS),通过文本生成高质量、视角一致且可编辑的3D场景。斯坦福与MIT近期推出WonderWorld(2024),实现了从单一图像出发在用户实时交互下生成无限延展的3D场景,将交互式3D世界生成推向 实时门槛。 人体生成:人体生成技术关注于生成逼真的数字人模型,精确创建逼真的人体模型在游戏、影视制作等领域具有广泛应用。较早的SMPL(2015)提出了一种可变形的人体模型,这种用于3D人体建模和姿态估计的参数化模型能够精确地表示不同 的人体形状和姿态,几乎成为实质性的3D数字人驱动标准。近期工作MagicMan(2024)是一种从单一参考图像生成高质量多视角人像的方法,它提出了一种高效的混合多视角注意力机制, 以生成更密集的多视角人像,同时保持更好的3D一致性。 中移智库 人脸生成:人脸生成技术能够从文本或图像中生成各种不同风格的人脸模型,可应用于虚拟现实、社交娱乐等领域,用户可以通过3D生成模型创造自己独特的虚拟人脸,具有高度的个性化和可定制性。例如,ChatAvatar(2023)支持生成3D人脸,其运用了对抗网络和扩散模型,用户可提供详细描述或者上传一张图片,ChatAvatar会生成一系列3D头像候选项,支持 导入到主流的3D软件中进行进一步编辑优化。 三、3D内容生成方法 近年来3D内容生成技术不断推陈出新,不同方法侧重点不 同,各有优势,将3D内容生成方法归纳为以下三类: 3D原生生成方法:3D原生生成方法是利用深度学习模型学 中移智库 习3D数据集,并直接生成物体或场景的三维模型。早期以3D原生生成方法为主,这种方法的优势在于可以生成较高质量的3D内容,且畸形、残缺控制较好,具备3D内容直接商用的潜力。但该方法通常需要大量的3D训练数据集。典型的3D原生生成方法中,DreamTech提出了3D-DiT(2024),该方法使用3D变分自编码器将3D形状编码到潜在空间,然后通过扩散变换模型从这个潜在空间生成3D形状,此外还提供了将参考图像高分辨率信息和语义信息整合到3D生成过程的方法,使模型可以生成与给定参考图一致的3D形状。今年8月DreamTech又推出了Direct3D-5B版本,进一步提升生成结果质量精度。此外,OpenAI近年来先后发布Point-E(2022)、Shap-E(2023),前者支持使用文本生成3D点云,即在空间中代表3D形状的离散数据点集,后者则利用神经辐射场(NeRF)等隐式神经表征,支持文本生成多样的3D物体资产,且收敛更快、支持纹理网格渲 染。 中移智库 基于2D先验的3D生成方法:3D原生生成方法的弊端在于训练时依赖大量3D数据集,例如ShapeNet。不过由于2D图像的丰富程度远远大于3D资产,从2D图像中学习并升维为3D数据,又称基于2D先验的3D生成方法,近些年来快速进步。这种方式最大的优势在于无需进行专门的3D数据训练,3D数据的获取和标注通常比2D数据更为昂贵和耗时。典型工作如Google的DreamFusion(2022),其利用改进的得分蒸馏采样(SDS)方法,将强大的2D扩散模型的知识扩展至3D领域,并采用NeRF进行3D表征,从而提高文生3D的生成质量,无需专门的3D训练数据、无需修改2D扩散模型。随3DGS这一显式三维表征方法的提出,DreamGaussian(2023)将3DGS整合到生成式3D内容创建流程,显著提高基于2D先验生成方法的效率,与DreamFusion中基于mip-NeRF360--一种改进NeRF方法相比, 实现了约10倍的加速,DreamGaussian能够5分钟左右完成文 生3D任务,相比之下DreamFusion需要大约1小时。 中移智库 基于多视图预测的3D生成方法:基于多视图预测的3D生成方法试图结合3D原生生成方法和基于2D先验的3D生成方法的优点,先利用扩散模型根据文本或图像生成目标对象的多角度视图,进一步基于多视图进行3D重建和生成,并采取优化策略保证多视图在几何上的一致性,确保3D内容生成质量。典型的工作如Zero-1-to-3(2023),该方法利用大规模扩散模型对自然图像学习的几何先验知识,可以在指定的角度下生成同一物体的新视图,但该方法生成的视图缺乏3D一致性。UCSD的One-2-3-45(2023)在Zero-1-to-3的基础上进行了改进,在基于SDF的广义神经表面重建方法及优化训练策略的帮助下,确保生成合理一致的3D内容,并采用前馈传递的方式一次性通过神经网络生成3D网格,实现45秒内从单一图像到高质量3D网格的 生成。One-2-3-45++(2023)中则进一步优化了2D多视图生成过程,通过微调2D扩散模型来生成包含六个角度的多视图的组 合图像,从而增强生成3D内容的鲁棒性和质量。 四、3D内容生成的应用 3D生成的使用场景广泛,在游戏、电影、通信等领域发挥 中移智库 着重要作用。 在游戏领域,3D内容生成技术在游戏行业的应用非常广泛,它能够自动化地生成游戏环境、角色和物品,为游戏开发者提供更加高效、便捷的游戏内容创作方式,从而大大提高游戏开发的效率,并降低人力成本。除此之外,在游戏的游玩阶段也可以引入3D生成技术,为玩家带来个性化模型创造体验。例如腾讯XR实验室近期发布的交互式3D游戏场景创作方法,利用预训练的2D去噪扩散模型生成场景的2D图像作为概念指导,从用户的手绘草图等随意提示中自动生成可交互和可玩的3D游戏场 景,生成的3D场景也可以无缝地集成到游戏开发环境中。 中移智库 在电影领域,三维数字内容创作是电影视效中的重要一环,三维技术可以拓展电影呈现的场景空间,在数字电影制作流程中,尤其在需要三维技术辅助的电影中,需要利用多种CG模型、角色来实现最终的成片效果,其中三维数字内容包含了模型资产、材质资产、动画资产等。传统的三维内容创作流程包括设计、建模、展UV、贴图绘制等多个步骤,通常费时费力。根据文本等描述快速生成三维模型,能够减少繁琐的重复性工作,使创作者能够将更多精力投入到电影创意和细节的打磨上,同时还减少了因设计迭代而产生的额外成本,有望成为电影制作 中不可或缺的一部分。 在通信领域,借助3D内容生成,用户可以在逼真的三维虚拟空间中进行互动,以体验沉浸式通信效果。沉浸式通信场景下需要结合3D人体、3D人脸以及3D场景等生成技术。实时3D人体和3D人脸重建,可以创建通信双方的虚拟代理人,辅助进 中移智库 行数字形态之间的互动和交流,基于摄像头等设备捕捉用户的姿态和面部表情,从而在点对点通信和多人远程会议等场景,提供更好的沉浸感和情感传递效果。3D场景和物体生成技术则为通信双方提供更加丰富生动的环境沉浸感,例如可以实时重建各类型3D数字场景,以契合当前主题,使通信参与方能够更 加直观地完成沟通。 五、总结与展望 尽管AIGC3D取得了显著的进展,但仍面临诸多技术挑战。3D生成模型的主要瓶颈是缺乏大量高质量的3D数据集,目前常用的3D数据集如ShapeNet(约22万个已分类的3D模型)或Objaverse(基础版本约80万个3D模型、XL版本约100万个3D模型)包含的模型数量和细节质量都有待提升,尤其是比起2D领域的大数据集,例如LAION-5B(约50亿张图像),3D数据量仍远不够来训练优质的3D大模型。确保生成的3D内容的质量也 是当下面临的挑战之一,生成的3D内容可能存在瑕疵、不完整或不符合预期的情况。例如3D人体模型中可能会出现比例不协调问题,或者出现常见的Janus问题,即在3D头像生成中由于视角不一致而导致的不确定性,产生一个物体的正面视图特征 (如面部或头部)错误地出现在其他视图中。 中移智库 未来,3D内容生成将更加注重结合文本、图像、视频等多模态信息,以提高3D内容生成的准确性和丰富性。此外,现有模型往往在特定数据集表现良好,在面对不同领域和风格的任务时,需要进一步提升其泛化能力。