您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[奇偶派]:文生视频时代已到,百度、讯飞、字节谁能率先做出“国产Sora”? - 发现报告
当前位置:首页/行业研究/报告详情/

文生视频时代已到,百度、讯飞、字节谁能率先做出“国产Sora”?

文化传媒2024-02-23-奇偶派还***
AI智能总结
查看更多
文生视频时代已到,百度、讯飞、字节谁能率先做出“国产Sora”?

文生视频时代已到,百度、讯飞、字节谁能率先做出“国产 Sora”? 奇偶派•2024-02-2319:07:23来源:奇偶派 作者|叶子来源|奇偶派(ID:jioupai) 继ChatGPT后,OpenAI又在文生视频的领域中扔下了一颗深水炸弹,引爆了海内外AI圈。 2月16日,OpenAI的文字生成视频模型——Sora首次面世。据介绍,Sora可以根据所输入的prompt,直接输出最高长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。 在OpenAI创始人阿尔特曼的社交网站上,其也放出了Sora生成的视频,如下便是以“Abicycleraceonoceanwithdifferentanimalsasathletesridingthebicycleswithdronecameraview”(一场在海洋上举行的自行车比赛,不同的动物作为运动员骑着自行车,通过无人机摄像机视角进行拍摄)为提示词生成的视频。 此外,用更具体的prompt也可以获得时长更久的视频,如下便是以“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去”为提示词生成的视频。 这两个视频,如果不告诉你它们是由AI生成的,谁又能辨别出来呢? 那么,OpenAI的首款文生视频模型Sora是如何完成文生视频的?其与RunwayGen-2、Pika等AI视频工具相比,有着什么样的进步,又有哪些不足?Sora的出现,会让哪些行业出现翻天覆地的变化?对国内的AI企业,又有哪些启示呢? 1 Sora的底层逻辑,其实和大语言模型相同? 要深入探索Sora的多方面特征,我们首先需从其技术根基着手。换句话说,我们最先需要明白的是,Sora生成视频内容的背后,究竟是依托于怎么样的技术实现的? 在当今的人工智能领域,大模型的发展都离不开Transformer架构。这一架构的核心思想是利用海量数据进行学习,以便在特定的目标场景中实现泛化效果,即通过分析先前的内容来预测后续的内容。 这种方法在文本生成领域中表现出色,因为文本数据的结构和标准相对一致。然而,对于视频数据,情况就大不相同了。视频数据包含了图像内容、时间、颜色等多种维度的信息,如何将这些不同维度的因素有效结合,成为了构建AI视频模型的关键挑战。 在Sora项目的推进过程中,OpenAI深入思考并参考了大型语言模型的成功之道,即通过互联网上的超大规模数据训练,以获得通用的处理能力,从而成功将代码、数字和各种自然语言进行了有效的统一处理。 而为了让视觉数据模型继承这样的好处,Sora也采用了与大语言模型相同的思路,即LLMs既然可以使用token标记,那么Sora与采用类似于视觉领域中的token不就可以解决问题了吗? 具体来看,Sora模型构建了VisualEncoder视频压缩网络,将视频转换到低维空间LatentSpace,然后将LatentSpace分解成Patch表示,将视频生成的任务转化成通过已知Patch预测接下来的Patches的任务,然后通过Decoder将Latent还原成人类可理解的高像素视频并拼接起来,最终生成目标视频。 图源:OpenAI-Sora技术文档 也正是因为将视频转换成Patch表示,所以Sora模型并不像传统的视觉模型那样,需要被高宽比、分辨率、时间等因素限制,让整个模型的范化能力和通用性变得更强,还支持更多的Prompt类型,完成图生视频、视频扩展、多个视频之间连接等功能。 不仅在技术层面取得了突破性的进步,视频效果上更是实现了如代际碾压般的降维打击。 与先前的文本生成视频软件如Runway、Pika和StableVideo等“前辈”相比,Sora 首先,最直接差距的便是视频长度的提升,社交平台上一位名为“GaborCselle”的博主将相同的prompt“美丽、白雪皑皑的东京熙熙攘攘,镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位购物,绚丽的樱花花瓣随着雪花随风飘扬”输入给Sora、Pika、Runway、StableVideo四个模型后,它们给出的结果是这样的。 可以看到,当前主流的AI视频生成软件Pika、Runway和StableVideo视频生成的时长普遍被限制在5秒内,在特定情况下,应用户要求,这些平台能扩展至16秒,这已是2024年以前AI生成视频领域公认的最长时间纪录。而Sora则突破常规,其独特的能力允许它生成长达一分钟的视频,这一时长无疑将其置于行业绝对的领先地位。 而在简单的时长增加外,Sora多镜头切换的能力,也让人十分惊叹。 众所周知,在真正的视频拍摄中,多镜头场景的拍摄并不是件易事,不仅需要多个机位共同参与,还需要在后期进行复杂的剪辑,所以过去的AI视频大多都是单镜头出现,但Sora放出的文生视频很多都出现了多角度的镜头切换,并可以在不停的切换之间实现拍摄对象的一致性,这都是其他AI视频软件无法完成的。 此外,Sora创造出的场景和角色,已经达到了以假乱真的地步,从各种细节上来看,都好像是真实拍摄的一般,譬如下图人物的瞳孔、睫毛等细节处理,都看不出任何的AI味道。 不过尽管Sora在文本生成视频的领域取得了显著的进展,它仍然只是文生视频革命的初步尝试。OpenAI在其技术文档中也坦诚,Sora存在不少局限性,例如,其无法准确地模拟许多涉及到交互的物理特性譬如玻璃破碎等,也会出现吃掉饼干一部分后饼干仍然完好无损的情况。 然而,虽然Sora距离完美还有漫长的道路,但它的问世已经在海外被广泛视作第四次科 技革命的一个里程碑。这可以类比于第一次工业革命中火车上首次应用蒸汽机,那一刻人们意 识到,原本需要数日骑马车完成的旅程,现在只需几小时即可抵达。 360公司的董事长周鸿祎对Sora的评价更是高度肯定,他表示,“Sora不仅仅是一次简单的尝试,它所展示的,是大模型在理解和模拟真实世界方面取得的新成就和突破”,“就像做梦 一样”。他甚至预言,Sora的出现可能会将通用人工智能(AGI)的实现时间从10年缩短至一到两年,这无疑是对Sora以及人工智能未来潜力的极大认可和期待。 2 Sora,将颠覆这些传统行业 OpenAISora的推出,让我们见证了一个技术奇迹的诞生。这个能够快速且优质地将文字描述转化为引人入胜视频的AI工具,不仅仅代表着技术上的一次巨大飞跃,也预示着我们 熟悉的许多行业即将面临一场革命。 受其影响最大的行业,莫过于视频行业大类下的诸多细分行业了。 目前,全球有超过60亿人口是视频工具和短视频的用户,而其中与视频产业相关的从业者可能已经超过了将近10亿人,占到了全球总人口的13%到14%,这些从业者涵盖了影视行业、短视频行业以及我们日常触手可及的各种视频展示领域,包括广告制作等行业。随着人工智能(AI)技术在视频领域的融合与创新,这些从业者所在行业正在经历一场由AI视频技术引发的变革。 对于影视行业来说,AI视频模型的出现,将极大地降低拍摄剧集的门槛。 博主快刀青衣发文表示,在与业内人士的沟通中,做了20年影视导演的陈坤看到Sora后说的第一句话是“要变天了”,第二句话是“我直到今天才庆幸自己是个导演”。 而在追问中,陈坤表示现在的影视行业,分工极其精细,很多工种和里面的从业者都是阶段式配合,只有导演是需要从前期跟到后期的,然后去不停协调各个工种,从舞美、化妆、道具到灯光、摄像、摄影,从演员、编剧、剧务到动画特效,可以说一个环节掉链子,整个戏就可能功亏一篑。而如果AI视频按照现在的发展速度,至少很多简单的镜头、群演、灯光布景等,都可以用AI去完成了。 可以说,那些过去需要拍一年,花费数千万乃至上亿的影视作品,在未来凭借AI的能力,或许只需要一个月时间,成本也将大幅压缩,一变革不仅将对影视制作的效率产生深远影响,更可能引发对从业者技能要求的重大转变,未来有创意、会写prompt的导演,或许才是最需要的人才。 如果说对于影视行业从业者来说,AI视频模型是好帮手的话,那么对于广告行业从业者来说,更像是一场突如其来的“灭顶之灾”。 原本高度依赖人力创意和精细制作流程的广告拍摄与后期制作,在AI技术的赋能下,得以实现大规模的效率提升与成本优化。比如,以往制作一支高品质广告片,从策划、脚本撰写、场景搭建、模特选择到拍摄剪辑、特效合成等环节,可能耗时数月并耗费高昂预算。 而随着AI视频模型的应用,部分标准化及重复性高的工作内容,如背景替换、动态贴图、群演模拟等,均可以借助AI快速生成,从而极大地缩短了项目周期。 同时,AI作为“无情的学习机器”,完全可以替代人类根据品牌需求自动生成多版本广告创意,并通过机器学习不断优化传播效果,这无疑将对广告行业传统的创意生产模式带来前所未有的挑战,试想,在未来的竞标中,诸多友商报出数百万元价格的时候,AI视频广告公司却能以数十万元甚至数万元的成本完美解决用户需求,谁又能中标呢? 可以说,对于广告行业来说,AI视频带来的影响并不只是激烈的竞争,更意味着整个行业的组织模式与商业模式的重构。 极大的威胁。 此外,对于短视频行业来说,可以生成一分钟视频的Sora,已经对短视频从业者构成了 在全球范围内,无论是中国的抖音、快手、B站和小红书等平台,还是国际版的TikTok,短视频内容消费正处于前所未有的高峰,而随着Sora的出现,用户现在能够迅速制作出各种类型的视频内容,未来稀缺的不再将是视频拍摄或者剪辑的能力,只要拥有独特的创意,便可轻松入局,也将会在短视频行业中掀起另一场风暴。 在Sora这一技术现象的辐射范围内,在其对视频产业带来的挑战与变革之外,也正悄然为其他领域开辟出新的机遇。其中,算力行业自然首当其冲,受益于Sora驱动的AI视频生成技术对强大计算能力的持续渴求,市场需求将迎来显著增长。但此处先按下不表,转而聚焦于另一个重要领域——安全行业。 海外研究界普遍认为,在AI视频生成广泛应用后,安全领域的革新将会是最受惠的方向之一。可以预见的是,随着技术的发展和普及,市场上将涌现一大批专注于视频真伪鉴别技术研发与服务的新兴企业。这些公司将利用最先进的算法和技术手段,为全球范围内的政府、企业和个人用户提供视频内容真实性验证服务,以及相关的数据安防解决方案。 Sora带起的这一波浪潮不仅会推动视频认证技术本身的进步,还将带动整个信息安全产业链的升级与完善,包括但不限于数字水印技术、深度学习检测模型、区块链存证等前沿技术的深度融合应用。一个全新的、围绕视频内容安全防护的生态系统也将在全球范围内逐步构建起来,为维护信息社会的公信力与秩序提供有力支撑。 3 百度、讯飞与字节,谁能摘下国产Sora桂冠? 向国内,关注一下中国企业在文生视频领域的进展了。 在探讨了OpenAI的Sora模型与其对其他行业带来的深远影响之后,我们也该将视角转 年后A股开盘后,在Sora的催化之下,诸多概念股迅速升温,当日当虹科技、中文在线、因赛集团等公司均以涨停收盘,盘后也有许多企业在投资者交流平台交流相关进展。 其中,2月19日虹软科技官微宣,其核心大模型技术引擎——虹软ArcMuse再次升级。而此次升级将支持面向商拍的商业视频自动生成。 据介绍,与OpenAISora类似,虹软ArcMuse大模型视频生成基于diffusion-transformer技术架构,具备丰富多样的创意力和想象力。通过图像,ArcMuse大模型能够捕捉到商品的细节特征、质感、色彩等方面的精确信息,生成更能展示商品真实面貌的动态商拍视频。 而因赛集团则在与记者的交流中表示,其AIGC项目团队按照计划,将在三月进行文生视频功能的开发,等待时机成熟后投入公测。 而在大模型的主流玩家行列里,字节跳动早在