►Sora多方面突破行业瓶颈,业内追赶态势助推市场需求 ►AIGC应用赋能跨行业发展新征程 ►至2030年,全球/中国相关市场复合增长率达45%/87%,潜力巨大 全球人工智能行业 AI重塑千行百业 科技|2024年4月11日 陈咏娴 (852)39118271 cathychan@ccbintl.com AI重整商业运营的游戏规则。人工智能(AI)自ChatGPT于2022年11月问世后,正在以令人震撼的速度迭代发展着。世界见证了众多科技巨头和AI初创公司竞相推出底层大模型和一系列 AIGC工具的全新产品类别。OpenAI推出的Sora无疑是AIGC近期的一大里程碑。在本报告中,我们重点介绍了Sora的核心技术、关键功能和现存技术限制、潜在商用案例,以及与其他市面主流图像/视频生成模型的对比。基于文生视频模型跨行业的商业落地的可能性,我们认为该市场潜力巨大。特别是在中国,随着政府公开强调透过科技创新加快形成新质生产力、培育新动能、推动国家高质量发展,我们认为,类Sora模型将受到众多企业和消费者的青睐,从而加速该项技术的货币化进程。因此,已经具备文字生成视频能力或储备了相关技术的中国科技公司有望从中受益。 Sora突破业界现有文生视频技术的瓶颈。Sora能够根据简单的 文字提示生成长达一分钟的完整视频。纵然文本到视频的AI应用 大盘)、阿里巴巴(BABAUS/9988HK,跑赢大盘)和字节跳动也能够依靠生成式AI技术来赋能现有业务,并推出相关新功能来扩展商业的第二曲线。部分垂直领域公司亦利用AIGC技术丰富现有产品线,如网易(NTESUS/9999HK,跑赢大盘)的《蛋仔派对》。此外,还有一些AI科技公司正在开发类似Sora的AI工具或处于商业化早期阶段,包括因赛集团(300781CH)、虹软科技(688088CH)、万兴科技(300624CH)、云从科技 (688327CH)及恒图科技等(以上A股公司均未评级)。 风险提示:(1)政策不确定性;(2)地缘政治加剧;(3)业内竞争加剧;(4)研发商业化失败或AI解决方案失效的风险;(5)AI潜在不正当使用,及造成(6)道德伦理争议。 生成式人工智能市场规模及预测–全球 亿美元 模式并不新鲜,从谷歌等科技巨头到Midjourney、Runway和Pika等新兴初创公司都已经率先发布了类似的AI工具和平台,但Sora惊人的写实性、对更长视频片段的生成能力、对文本指令和人类情感的深度解读,以及对运动和物理世界交互原理的超强模拟都使其在一众产品中脱颖而出。尽管Sora的技术领先性毋庸置疑,但也并非没有缺陷。OpenAI在技术报告中公开的失误示例包括一些基本交互(如玻璃杯倾倒破碎)的物理建模不准确,以及物体状态(如咬痕、笔迹)随时间的变化不一致等。随 14,000 12,000 10,000 8,000 6,000 4,000 2,000 0 2020202120222023202420252026202720282029203020312032 生成式AI收入(左轴)占科技总支出(右轴) 14% 2023-2030年 复合增长率45% 12% 10% 8% 6% 4% 2% 0% 着业内追赶态势,我们预计市场上会出现更多类Sora的模型和产品,从而促进用户采用率和需求的进一步增长。 资料来源:彭博行业研究,建银国际证券 广阔市场潜力。我们看到文生视频模型在各个行业都具有广泛的 应用空间,包括但不限于营销广告、研发培训、电商零售、文娱游戏等。随着技术的不断迭代和应用实践的进一步成熟,企业和个人将更倾向于采用此类AIGC工具来提高运营效率、便捷日常生活、丰富娱乐方式及推动创新发展,从而带来巨大的市场潜力。根据彭博行业研究的数据,在全球范围内,AIGC市场规模预计将从2023年的670亿美元跃升至2030年的8,970亿美元,这意味着该领域复合年增长率高达45%。对于中国市场,艾瑞咨询预计其产业规模或从2023年的143亿人民币增至2030年的11,441亿人民币,复合年增长率将达87%。 飞跃式AI发展的受益者。鉴于其成熟的技术储备和先发优势,我们维持百度(BIDUUS/9888HK,跑赢大盘)为中国人工智能的最佳投资标的观点。其他互联网巨头,如腾讯(700HK,跑赢 生成式人工智能产业规模及预测–中国 亿元% 2023-2030年 复合增长率87% 14,000 12,000 10,000 8,000 6,000 4,000 2,000 0 202220232024202520262027202820292030 AIGC产业规模(左轴)中国占全球市场份额(右轴) 资料来源:艾瑞咨询,建银国际证券 20% 18% 16% 14% 12% 10% 8% 6% 4% 2% 0% SORA突破业界瓶颈 人工智能(AI)在过去一年里以惊人的速度发展着,近期最大的进展则为OpenAI年初推出的文生视频大模型Sora。纵然Sora并不是文生视频领域的第一个模型,但其生成的样片具有超现实的品质和令人震撼的视觉效果,并展现出了明确的商业化潜力与应用路线,可谓是各个相关领域的颠覆者。因此,本报告将重点介绍Sora的核心技术、关键功能及短期内的技术缺陷,并展开讨论Sora同此前文生图及视频领域相关模型的主要区别和潜在应用范例,最后我们还将论述国内外科技巨头及AI初创公司在类似模型方面的开发进展。 Sora基本情况 据OpenAI于2024年2月介绍,Sora是其全新的AI文生视频模型,能够通过文本指令生成长达60秒的完整视频,预计最快24年内对公开放。Sora的底层模型同时基于扩散式模型(Diffusion)和自注意力深度学习机制(Transformer),其精神网络运作方式与ChatGPT相差无几。 简而言之,Sora先将视频片段完全转换至静态空间,随后再通过逐步去除噪音将该片段逆转至清晰的图片或视频。为达到此效果,Sora的训练引入了海量被称之为“补丁(patches)”的影像样本作为数据单元,并辅以对视频内容的纯文本解释,这有助于模型学习并理解每帧图像和视频内容之间的联系。在整个生成过程中,自注意力机制负责补丁的组织排列,扩散模型则帮助填充每个补丁的内容,从而将输入的文字指令同最终生成的视频连接起来。 图表1:Sora由文字指令生成的60秒视频样片 【Prompt:AstylishwomanwalksdownaTokyostreetfilledwithwarmglowingneonandanimatedcitysignage.Shewearsablackleatherjacket,alongreddress,andblackboots,andcarriesablackpurse.Shewearssunglassesandredlipstick.Shewalksconfidentlyandcasually.Thestreetisdampandreflective,creatingamirroreffectofthecolorfullights.Manypedestrianswalkabout.译文:一位时髦女士穿着黑色皮夹克、红色长裙和黑靴子,在充满霓虹灯和城市标志的东京街头行走。她戴着墨镜并涂抹了红色口红, 手提黑色手袋,自信而随意地走着。街道潮湿且有反光,灯光色彩斑斓,在地面形成镜像效果,街上人来人往。】 资料来源:OpenAI官网 Sora功能介绍 文生视频功能:在指令框输入简单的文字形容后,Sora便能自动生成最多60秒的高清视频,且用户可以自由地通过更改关键词对生成的视频进行局部编辑。 图表2:Sora通过更改文字指令中的关键词生成的不同视频片段 【Prompt:atoyrobotwearingagreendressandasunhattakingapleasantstrollinJohannesburg,SouthAfricaduringawinterstorm.译文:一个穿着绿裙子戴着遮阳帽的玩具机器人愉快地迎着南非约翰内斯堡的暴风雪散步】 【Prompt:AwomanwearingpurpleoverallsandcowboybootstakingapleasantstrollinAntarctica duringabeautifulsunse.译文:一个穿着紫色连体裤和马丁靴的女人愉快地迎着南极洲的美丽落日散步】 【Prompt:Anoldmanwearingbluejeansandawhitet-shirttakingapleasantstrollinMumbai,India duringacolorfulfestival.译文:一个穿着白色T恤和蓝色牛仔裤的老人愉快地迎着印度孟买的多彩庆典中散步】 资料来源:OpenAI官网 现有图片及视频编辑:除了文生视频的基本功能外,Sora还支持图片、视频或文字与二者结合的指令,使其能够被广泛应用于静态图片和现有视频的编辑工作,包括但不限于动态化图像、向前或向后扩展视频、更改现有场景及无缝过渡多个不同主题、构图的视频等。 图表3:Sora基于DALL·E3图像及文字指令生成的视频 【Prompt:Inanornate,historicalhall,amassivetidalwavepeaksandbeginstocrash.Twosurfers,seizingthemoment,skillfullynavigatethefaceofthewave.译文:在一座华丽且古朴的大厅里,巨浪席卷至顶峰并开始衰退。两名冲浪者抓住机会熟练地迎着波浪滑行】 资料来源:OpenAI官网 图表4:Sora无缝拼接无人机及海底蝴蝶视频 资料来源:OpenAI官网 文生图功能:通过在单帧空间内排列补丁碎片,Sora也能够利用输入的文字指令生成至高2048x2048 分辨率的静态图片,图像风格涵盖3D仿真角色、写实风景、卡通人物等。 图表5:Sora根据简单文字指令生成的高清图片 资料来源:OpenAI官网 现实模拟能力:Sora在大规模训练过程中还衍生出许多新兴能力,使其能够在没有特别指令的情况下,自行对某些现实物理世界中的人、动物和环境进行模拟。因此,Sora拥有在三维空间内生成动态连续物体的能力,并遵循物理规律对人物和关键物体的简单互动进行预测,如在画布上留下笔迹、在咬过的汉堡上留下齿痕等。同时,Sora还被应用于模拟数字世界,如通过输入包含“我的世界 (Minecraft)”相关游戏的文字指令,渲染出与其极其相似的高保真度数字世界,且影像视角能够跟随玩家控制自然移动。 图表6:Sora对现实物理世界和数字世界的模拟能力 资料来源:OpenAI官网 Sora关键优势 从全球市场角度看,众多互联网巨头和初创公司都在文生视频领域深耕多年,已经将多个成熟产品投入市场,主流扩散式文生图/视频模型代表有PikaLab旗下的Pika1.0、Runway旗下的Gen-2、StabilityAI旗下的StableVideoDiffusion和Midjourney的MidjourneyV6等。但与海外现有主流文生视频模型相比,OpenAI称Sora在生成视频的质量和时长、用户体验以及对指令的理解能力等方面都拥有更为惊艳的表现。 更深入准确的指令理解能力。不同于Pika1.0和Gen-2等搭建在单一扩散式模型上,Sora通过融合Transformer框架获得了深度自我学习的能力,其生成的视频质量能够随着训练次数的增加而显著提高。因此,Sora一旦上线,用户贡献的素材内容能够进一步丰富其数据资源和训练样本,从而生成质量更高的视频片段。 图表7:Sora重复1次、4次和32次相同文字指令后生成的视频对比 资料来源:OpenAI官网 OpenAI还将DALL·E3的重描述技术(re-captioning)融入了Sora的再训练过程,确保其训练素材具有更高层次的细节描述。Sora还借助GPT