中泰证券研究所专业|领先|深度|诚信 |证券研究报告| 人工智能的下一站:文生3D 2024.03.01 分析师:闻学臣 执业证书编号:S0740519090007 联系人:刘一哲 摘要 以大模型、生成式为代表的新一代人工智能技术与产业变革如火如荼,从ChatGPT代表的文生文,到DALL·E代表的文生图,再到Sora代表的文生视频,“暴力美学”在持续突破技术的天花板,多模态也成为了共识的发展趋势,继文本、代码、图片、视频之后,我们认为下一个有可能实现突破的模态大概率是3D。 AI+3D建模技术具备广阔的发展前景,但其当前也面临较多挑战,如3D数据与资产缺乏、AI训练难度高、AI实时渲染技术有限、商业化落地难度大等问题。 目前海外在AI+3D技术上主要分为工业场景探索与非工业场景探索。非工业场景应用探索主要以谷歌的DreamFusion和英伟达的Magic3D为代表,主要面向游戏、元宇宙中的3D资产设计;工业场景应用则主要以衍生式设计软件为主,如PTC的Creo以及Autodesk的Fushion360均提供衍生式设计能力。 投资建议:产业视角建议持续跟踪关注文生3D建模领域的进展,标的视角BIM领域重点关注广联达、盈建科;CAX领域重点关注中望软件、索辰科技、浩辰软件;EDA领域重点关注华大九天、概伦电子。 风险提示:AI技术发展不及预期;核心AI技术授权断供的风险;行业竞争加剧的风险;产品研发打磨不及 预期;研报使用信息更新不及时的风险等 目录 CONTENTS 1 多模态成为共识,3D将是下一个重点突破方向 2 3 4 AI+3D:前景广阔,仍面临诸多技术挑战当前海外AI+3D探索进展 投资建议与风险提示 目 CONTENTSO 中泰 录 E 所 1NT 多模态成为共识,3D将是下一个重点突破方向 |领先|深度 不同模态对应的人工智能技术与应用展望 图表:生成式AI达到人类创作者水平的时间 资料来源:红杉汇,中泰证券研究所 1.1文生文(TexttoText) 文生文(TexttoText)是AIGC行业最先实现的功能,也是ChatGPT等一系列大模型诞生以来被大家体验最多的功能。 目前,文生文模型中被应用较多的是OpenAI的GPT系列大模型。 ChatGPT率先支持以更连贯自然的语法对输入的问题进行回答。GPT系列基于Transformer架构对序列数据中的长距离依赖进行建模,同时OpenAI使用了来自互联网的大量文本数据,包括书籍、文章和网站,来对GPT模型进行无监督学习训练。目前,GPT系列已被用于广泛的自然语言处理任务,包括语言翻译、文本补全和文本生成。 •GPT-1:发布于2018年6月,参数量1.17亿; •GPT-2:发布于2019年2月,参数量15亿; •GPT-3:发布于2022年5月,参数量1750亿; •ChatGPT:发布于2022年11月,参数量15亿,专门为会话任务而设计和训练。 图表:ChatGPT中文对话示例 资料来源:腾讯新闻,中泰证券研究所 图表:ChatGPT英文对话示例 资料来源:腾讯新闻,中泰证券研究所 1.2文生代码(TexttoCode) ChatGPT的出现,不仅让人机对话更为连贯、自然、有条理,且ChatGPT本身即具备丰富的代码知识积累,可根据人 类语言提示自动生成代码,也可为用户回答一般编程问题、代码测试与改进、代码翻译等功能。 不过,ChatGPT的诞生并不专门针对代码,并且可能无法无缝集成到用户的工作流程中。除ChatGPT外,目前市面上已有很多专业AI工具在文生代码方面具备相当的水平。具有代表性的工具如GitHubCopilot、Codex等。 •GitHubCopilot:Github与OpenAI共同开发的AI驱动的编程助手。它能够直接在用户的编辑器中提供代码片段或者整个函数的建议,以帮助用户更快地编写和完成代码。这一工具可以被看作是一个自动的代码完成工具,它能理解自然语言,也能理解代码本身的上下文。Copilot在GitHub上可用的公共存储库上接受过训练,能够处理各种编程语言和框架。 •Codex:OpenAI公司推出的GPT-3的多个派生模型之一。它是基于GPT语言模型、使用代码数据进行Fine-Tune而训练出的专门用于代码生成与文档生成的模型。Codex能够帮助程序员自动补全代码、直接生成代码、自动补充测试样例,并支持多种编程语言。 图表:ChatGPT生成代码示例图表:GitHubCopilot生成代码示例 1.3文生图像(TexttoImage) 2022年前,文生图的模型以生成性对抗网络(GANs)为主。但因为在实践中存在明显不足,甚至还不如用 Photoshop等工具直接创作,无法用于商业化。 从2021年OpenAI提出DALL·E模型和CLIP(ContrastiveLanguage-lmagePre-training,对比图文预训练)开始,各大公司开始不断推出新的文生图模型,从生成效果和效率上相对于以前的文生图方法都提升了一大截。特别是2022年8月StableDiffusion正式面世引领AIGC的行业发展,其作为一个迅速火出圈的AI技术,以极快的速度吸引了大量关注。同时,这也奠定了Diffusion模型在文本生成图像领域的核心方法地位。 图表:AI文生图模型阵营及简史 1.3文生图像(TexttoImage)代表公司——Midjourney 目前,通用文生图主要公司及产品工具包括Midjourney、Stability.AI、DiscoDiffusion、DALL·E模型等,垂直文生图主要公司及产品工具则包括looka(Logo与网站设计)、NovelAI(二次元形象生成),Scenario(游戏资产生成),以及Lensa(头像生成)。 Midjourney:Midjourney是一款由Midjourney研究实验室开发的人工智能程序,可根据文本生成图像,于2022年3年正式面世,用户通过与Midjourneybot进行对话式交互,提交Prompt(文本提示词)来快速获得想要的图片。 •Midjourney参考了CLIP及Diffusion,构建了自己的闭源模型,抓取公开数据进行训练,并构建了Discord中的 Midjourneybot应用。作为应用层公司,Midjourney收集用户反馈数据,迭加技术的进步,不断迭代模型。 •Midjourney采取SaaS订阅制模式。最初使用时,用户可以免费生成25张照片。之后按照订阅制收费。月付制为10、30、60美元,或者使用年付制,价格为8、24、48美元/月。 •2022年3月,Midjourney启动邀请制Beta版本。因为文生图本身具有极强的吸引力,且Midjourney创作的图片质量很高,所以很快就吸引了大量用户。后续经多次迭代后,目前Midjourney已迭代至v6版。 图表:MidjourneyDiscord社群界面图表:Midjourney生成图片效果示例 1.4文生视频(TexttoVideo) 相较文生图像,受制于文生视频技术难度、计算难度、数据要求、多领域融合技术挑战等因素,文生视频领域的进展则较为缓慢。直到2023年2月Runway发布首个AI编辑模型Gen-1,文生视频领域才迎来属于自己的iPhone时刻,自此之后一年内,文生视频技术飞速发展,生成的视频从时长、连续性、视频质量、视频合理性均有大幅提升。 •文生视频的iPhone时刻:Runway先后发布Gen-1、Gen-2。1)2023年2月,之前参与开发StableDiffusion最初版本的Runway提出了首个AI编辑模型Gen-1,Gen-1可以在原视频的基础上,编辑出用户想要的视频。2)2023年3月,Runway很快又推出了Gen-2的内测版本,并于6月份正式对外发布。Gen-2刚开始发布时还只能生成4秒钟的视频,每个用户的免费试用额度为105秒,到了8月份,生成视频的最大长度便从4s提升到了18s;9月,新增导演模式,可以控制镜头的位置和移动速度。3)2023年11月3日,Runway的Gen-2发布里程碑式更新,支持4K超逼真的清晰度作品,并于11月21日上线“涂哪动哪”的运动笔刷新功能。 •2023年11月16日,Meta发布生成式视频模型EmuVideo。该模型既支持灵活的图像编辑,也支持根据文本和图像生成高分辨率视频。根据展示的demo,EmuVIDEO已经可以支持4秒的视频生成。 •2023年11月18日,字节发布PixelDance。PixelDance给出了两种不同的视频生成模式。1)基础模式(BasicMode),用户只需要提供一张指导图片+文本描述,PixelDance就可以生成有高度一致性且有丰富动态性的视频,其中指导图片可以是真实图片,也可以利用现有的文生图模型生成。2)高级魔法模式(MagicMode),在这种模式下,用户需要提供两张指导图片+文本描述,可以更好地生成更有难度的各种炫酷特效镜头。 •2023年11月21日,StabilityAI发布了自家的生成式视频模型StableVideoDiffusion(SVD),该模型支持文本到视频、图像到视频生成,并且还支持物体从单一视角到多视角的转化(即3D合成)。 •2023年11月29日,Pika结束测试版运行,正式发布Pika1.0。Pika1.0可支持对于视频的实时编辑和修改,可根据已有的素材直接扩展视频,生成不同高宽比的内容,亦可直接在视频中添加想要的素材。 1.4文生视频的重大突破:OpenAI发布Sora 2024年2月16日,OpenAI正式发布文生视频大模型Sora。该模型被视为文生视频领域的革命性突破。 Sora的能力:Sora是一种基于扩散模型和Transformer架构的Al视频生成模型,它可以根据用户提供的文本指令生成最高长达一分钟的复杂视频内容。与传统的视频生成工具相比,Sora能够细致地理解用户提示中的内容,并生成具有视觉品质和连贯性的视频,展现出了对现实世界的深刻理解。 图表:Sora生成视频案例:东京街头漫步的女子(时长一分钟) 资料来源:OpenAI,CSDN,中泰证券研究所 图表:Sora生成视频案例:野外雪地与狗玩耍(时长4秒) 资料来源:OpenAI,CSDN,中泰证券研究所 1.4文生视频的重大突破:OpenAI发布Sora 归纳而言,Sora的突破之处主要体现在三点: •生成视频时长实现突破,可达一分钟。之前的较多文生视频模型都只支持生成4秒的短视频,而Sora可支持长达生成 一分钟的视频,且视频质量始终保持较高水准。 •生成视频可保持三维空间的连贯性。Sora能生成带有动态视角变化的视频。当摄像机位置和角度变动时,视频中的人物和场景元素能够在三维空间连贯移动,而且即使人物、动物或物体被遮挡或移出画面,Sora也能保持长时间视频的连续性。同样,它能在同一视频样本中多次展示同一角色,并确保外观一致。 •具备初步的物理规则理解能力,不过当前理解复杂场景和规律有难度,且对事物发生的因果、时序和空间关系理解不足。OpenAI将Sora视为“能够理解和模拟现实世界的模型的基础”,英伟达高级科学家JimFan也认为“Sora实际上是一款基于数据的物理模拟引擎,它能够模拟出真实或虚构的世界。”不过,就已生成的案例来看,Sora在深刻理解物理规律上仍然存在可提升的地方,例如不能准确模拟许多基本交互的物理现象,如玻璃碎裂。其他一些形式的交互,如吃食物,也并不总能产生正确的物体状态变化。 图表:Sora生成“两艘海盗船在一个咖啡杯中航行、互相战斗的逼真特写视频” 资料来源:OpenAI,机器之心,中泰证券研究所 图表:Sora生成“玻璃杯打碎溢出红酒”时产生bug