您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动]:理性分析Sora影响关注OpenAI高速创新的源动能 - 发现报告
当前位置:首页/行业研究/报告详情/

理性分析Sora影响关注OpenAI高速创新的源动能

信息技术2024-03-31黄实、张文帝、董超中国移动郭***
理性分析Sora影响关注OpenAI高速创新的源动能

中移智库 理性分析Sora影响 关注OpenAI高速创新的源动能 中国移动研究院战略与产业研究所 2024年3月 摘要 中移智库 Sora模型带来文生视频重大突破,其技术水平与OpenAI由此彰显的超常创新迭代速度,引起科技界、商界和投资界热议。对Sora成本、成熟度进行分析后,我们认为短中期内该模型对内容产业难有颠覆性影响。比起Sora本身,OpenAI持续引领技术潮流的源动能更值得关注。除了海量数据和巨大算力的投入外,强大的工程创新能力和不拘一格的用人魄力是OpenAI成功的另外两大关键。建议一方面持续跟踪关注文生视频技术的最新动态和研发进展另一方面更要关注OpenAI背后创新的源动力,参考OpenAI实践经验,双向发力强化前沿领域工程创新,加速产业技术发展;构建人才合作培养生态,为新生力量提供引领未来科技探索的成长平台。 一、预计短中期内,Sora难以颠覆内容产业 中移智库 成本高企,限制了Sora的发展路径。Sora的关键技术之一是把视频按照空间、时间维度切割划小为若干视频片段(Patch),然后进行训练、处理、输出等工作,Patch之于Sora就好比Token之于ChatGPT。综合业界目前的测算结果并参考通过GPT-4API输出Token的定价,预计客户采用Sora生成1分钟视频的成本约为十几至几十美元(折合人民币百元至千元量级)。对比国内纯人工拍摄视频约100-500元/条[1]的成本,Sora目前在B端产业推广方面的竞争力还有限。同时,高昂的成本也使得Sora难以复刻ChatGPT“通过低推理成本、高适应性迅速在C端用户普及、 依托海量用户输入数据迭代优化模型”的成功路径。 Sora技术尚不成熟,也非视频生成技术的“唯一解”。一是理解和再现物理规律的能力不足。Sora模型出现了相关性与因果律矛盾(例如,吹蜡烛但蜡烛火�纹丝不动) 中移智库 局部合理与整体荒谬矛盾(例如,跑步机与跑步者的方向相反)、临界状态缺失(例如,果汁泼溅视频中,缺失果汁从杯中流洒出来的过程)等问题,在构建一个广义的、符合现实世界运行逻辑的“世界模型”方面仍有很大的提升空间。二是生成视频的一致性不佳。Sora模型历次生成视频的“画风”不同,使得用户难以将多个视频片段剪辑拼接成连贯长视频。与此同时,近期无论是Meta发布的V-JEPA模型还是阿里发布的EMO模型,均采用了与Sora不同的底层架构,同样展现了独特的技术特点和在部分领域对Sora的比较优势。例如,EMO模型能够生成与输入音频同步 且在表情和头部姿势上更富有表现力的肖像视频。 综上,预计短中期内,Sora难以颠覆内容产业。2020年AI制药模型AlphaFold发布时,曾被寄予♘望,认为它将彻底改变制药产业。然而,历经四年发展,AI在该领域 中移智库 的应用仍主要集中在临床前研究的某些环节,更为关键的临床试验阶段以及药物靶点选择、适应症确定和患者人群筛选等方面,AI的作用依然十分有限。与制药产业相似,内容产业的产业链条长且复杂,个别环节的技术突破并不能全面改变整个产业的运作模式,即使Sora解决成本和技术的问题,短中期内也只会影响到素材采集、影视制作等少数环节,在涉及世界观构建、故事设定、角色形象设计等的核心领域,内容产业仍然依赖于现行模式和人的创意 输入。 二、OpenAI超常的技术迭代速度比Sora本身更值得关注 在关注Sora可能引领的产业变革之余,更应深入探索OpenAI持续引领AI技术潮流的内在动力。除了算力与数据的海量投入外,OpenAI强大的工程创新能力和大胆的人才培养政策同样值得关注,具体来看: 中移智库 一方面,OpenAI博采众长,以强大的工程创新能力引领技术发展。相较谷歌等竞争对手,OpenAI并不擅长基础底层技术攻关(ChatGPT、Sora的核心架构和关键技术大多来自外界),基于深度研发成果追踪与大量技术组合试验,对已有技术进行融合优化的能力,才是OpenAI快速迭代高水平成果的源动能。OpenAI研究人员始终保持对全球AI前沿基础技术的敏锐洞察,持续高强度研究大量学术论文并深入理解技术原理与优劣势。依托海量知识储备,OpenAI得以确立核心技术路线,并保持对抉择正确性的充分信任 (例如,OpenAI确定GPT的技术路线更具发展前景,在其 他技术路线AI模型的性能大幅领先时,仍保持定力继续推进GPT研发)。围绕核心技术路线,OpenAI筛选、组合前沿技术,通过巧妙融合模型、注重优质标注、训练足量数据、突破常规编码等方式,以大量试验迭代优化性能。同 中移智库 时,OpenAI还强调跨学科的知识与经验融合,汇聚多领域专家,使产品更好与用户价值观、评价标准“对齐”,显著提升产品的被认可度。此外,OpenAI也调整了研发模式,打破技术攻关与产品化的壁垒,加速成果产出速度。OpenAI整合研究人员、产品经理、设计师、软件工程师并组建跨部门的项目团队(如ChatGPT团队),自始至终保持紧密合作、共同探讨项目布局与发展(而非按照产品生命周期,各部门串行工作),以市场需求与用户试用反馈指引研究人员的技术优化方向,以最新研发成果启迪产品人 员的开发思路。 另一方面,OpenAI敢于让青年人才挑大梁,支持他们小团队作战、多路径探索,充分激发青年人才的创新创造活力。在Sora项目中,OpenAI并未选择资深专家,而是任命了具备文生视频核心知识的两名应届博士毕业生来领导 团队,给予年轻人充分的信任和自主权,允许其延续在学校的研发课题、基于自己前期提出的扩散Transformer架构 中移智库 (DiT)构建文生视频模型。OpenAI采取了多项目并行探索新技术路线的研发模式,在聚焦GPT主赛道的同时,以有限的资源投入,为众多年轻精英提供将实验室技术理论转化为创新实践的宝贵机会,并包容可能的失败。这种“知人善用”的人才观,助力OpenAI不断实现技术新突破,更为 其长远发展筑牢根基。 三、策略建议 不可否认的是,Sora的横空出世的确带来AI文生视频能力的飞跃,相关技术的最新动态和研发进展,特别是在娱乐、广告、教育等领域引发的行业变革以及对商业模式的重塑,需要我们持续聚焦关注。另一方面,OpenAI持续引领AI技术潮流,其背后的创新源动力,更值得业界参考学习。具体来看: 双向发力强化前沿领域工程创新,加速产业技术发展。 中移智库 一方面,强化对外界基础研究成果的跟踪,对前沿技术“跟进、汇聚、融合、再造”。通过追踪全球前沿领域最新成果动态,全面把握技术发展趋势,融合业界最新基础研究,探索可提高性能的技术组合。同步关注脑科学与认知科学、新型计算技术、新能源新材料等领域创新进展,以交叉学科新理论突破启迪AI技术变革,以交叉学科新应用需求指引AI创新方向,以市场为导向,以体系化工程思路促进交叉学科的碰撞、交流与融合,形成创新策源地。另一方面,学习OpenAI的研发、产品一体化创新模式,提高工程创新速度。通过在企业内部设立小型工作室等方式,组建跨部门的一体化项目团队,促进多方项目成员全程紧密合作,强化外部市场需求、己方已有技术能力、用户试用反馈等信息的共享,加速产品迭代升级。 构建人才合作培养生态,为新生力量提供引领未来科 技探索的成长平台。一方面,与高校联合培养兼具技术创新和工程师能力的复合型人才队伍,加快前沿技术理论到技术落地之间的创新转化,打通从科研到产业落地之前的 中移智库 “最后一公里”。另一方面,充分激发新人科创潜能,为他们提供引领探索前沿技术的机会与平台。参考科技部部长在“两会”提出的指导意见,大胆使用35岁以下的青年精英,探索AI领域多样化的新技术,验证他们在学术界或业界提出的创新方向。在此过程中,提高对探索失败的容忍度,进一步优化科研经费、科研人员管理以及绩效考核等方面的体制机制,营造宽松、包容的创新氛围。 [参考文献] [1]36氪研究院《自研垂直模型,AIGC自动生成商业视频, 「FancyTech」完成近亿元B轮融资》 审稿:宋镇亮|战略与产业研究所 本文作者 中移智库 黄实,就职于中国移动研究院,主要从事产业技术研究工作。 张文帝,就职于中国移动研究院,主要从事产业技术研究工作。 董超,就职于中国移动研究院,主要从事产业技术研究工作。 中移智库 11/12