行业点评报告●传媒互联网行业 2024年2月28日 Google发布基础世界模型Genie,定义生成式AI全新范式 --行业动态点评 核心观点: 传媒互联网行业 推荐 维持评级 事件:2月26日,Google发布了基础世界模型Genie。作为一个110亿参数的基础世界模型,Genie可以通过单张图像(包括合成图片、照片甚至草图)的提示生成可玩的交互式环境。 Genie定位基础世界模型,性能表现优异:Genie可以通过合成图像、照片、草图来生成一个虚拟世界,并使人们可以根据自己的要求与世界互动,因此Genie本质是是一个基础世界模型,Google将其定义为生成式交互环境 (GenerativeInteractiveEnvironments)。Genie具有以下突出特点:1)用户可以通过各种方式提示模型,可以使用生成的图像或手绘草图。在每个时间点,Genie都可以采用用户提供的潜在动作来生成下一帧,产生具有有趣和多样化角色动作的轨迹。2)对具体的移动指令,Genie也生成了优秀的结果。在平台游戏的生成环境下,Genie能够精确地执行“左”、“右”、“跳跃”、“无操作”等基本指令。3)Genie可以判断场景中的哪些部分通常是可控的,还可以推断出在生成的环境中一致的各种潜在行为。因此可以在不同的提示图像中用相同的潜在操作产生相似的行为。4)Genie还可以在生成的过程中模拟视差,这是平台游戏中的常见功能,即当平台游戏的屏幕发生横移时,前景移动得更多,而背景只稍微移动。 生成式AI全新范式,未来发展空间大:Genie模型的训练包含了三个关键组件:1)潜动作模型(LAM),用于分析每两帧之间可能发生的动作𝒂;2)视频分词器,将视频的每一帧转换为一系列的离散符号𝒛;3)动态预测模型,根据之前的动作和帧token来预测视频的下一帧内容。我们认为:Genie为生成式AI定义了全新的范式,通过潜动作学习使用户交互成为可能,并且具有推断行动的能力。前期在平台游戏和机器人领域的学习有望推广到更广阔的领域,并利用更大的互联网数据集来进行学习,为培养适应多种环境的AI提供了一种全新的可能性,即:成为一个能够跨领域且不需要额外专业知识的通用工具。 投资建议:短期来看,受AI技术及海外催化影响,建议关注海外映射AI产业链的投资机会。经前期调整后,目前板块具有较高的安全边际。中长期来看,随着包括基础世界模型和视频生成模型在内的各种AI模型不断更新迭代,AI技术潜在的应用行业或将受益。建议重点关注以下行业:1)游戏行业:完美世界(002624.SZ)、三七互娱(002555.SZ)、恺英网络(002517.SZ)等;2)影视/IP类行业:光线传媒(300251.SZ)、华策影视(300133.SZ)、上海电影 (601595.SH)、中文在线(300364.SZ)等。 风险提示:AI技术发展不及预期的风险、政策监管环境变化的风险、行业竞争加剧的风险、相关技术应用不及预期的风险。 分析师 岳铮:010-8092-7630:yuezheng_yj@chinastock.com.cn分析师登记编码:S0130522030006研究助理祁天睿:010-8092-7603:qitianrui_yj@chinastock.com.cn 相对沪深300表现图 资料来源:Wind,中国银河证券研究院 相关研究 【银河传媒互联网】行业动态点评_文生视频模型Sora面世,AI生视频技术持续革新【银河传媒互联网】11月行业月报_文生视频领域产品Pika获关注,AI应用落地加速【银河传媒互联网】行业动态点评_大模型训练数据付费或成趋势,关注出版板块估值修复机会 www.chinastock.com.cn证券研究报告请务必阅读正文最后的中国银河证券股份有限公司免责声明 目录 一、Genie:生成式AI的全新范式3 二、Genie与Sora对比6 三、投资建议7 四、风险提示7 一、Genie:生成式AI的全新范式 Genie可以通过合成图像、照片、草图来生成一个虚拟世界,并使人们可以根据自己的要求与世界互动。因此,Genie本质是是一个基础世界模型,Google将其定义为生成式交互环境(GenerativeInteractiveEnvironments)。下图展示了Genie根据一些素材生成虚拟世界的效果,包括提示帧和连续四次执行一个潜在动作后的第二帧,素材的来源包括文生图片的合成图、手绘草稿、以及现实世界的照片。尽管有些图像在视觉上与数据集略有差异,但在每种情况下,Genie都能生成清晰的角色移动的过程。 图1:Genie可以根据各种来源的图片生成虚拟世界资料来源:GoogleDeepMind,中国银河证券研究院 Genie模型的训练过程包含了三个关键组件:1)潜动作模型(LAM),用于分析每两帧之间可能发生的动作𝒂;2)视频分词器,将视频的每一帧转换为一系列的离散符号𝒛;3)动态预测模型,根据之前的动作和帧token来预测视频的下一帧内容。 图2:Genie模型的训练过程资料来源:GoogleDeepMind,中国银河证券研究院 Genie提供的是生成式交互环境,用户可以通过各种方式提示模型,可以使用生成的图像或手绘草图。在每个时间点,Genie都可以采用用户提供的潜在动作来生成下一帧,产生具有有趣和多样化角色动作的轨迹。 图3:Genie根据潜在轨迹模拟出同一场景下多样化的角色轨迹(合成图像) 图4:Genie根据潜在轨迹模拟出同一场景下多样化的角色轨迹(手绘草图) 资料来源:GoogleDeepMind,中国银河证券研究院 资料来源:GoogleDeepMind,中国银河证券研究院 对具体的移动指令,Genie也生成了优秀的结果。在平台游戏的生成环境下,Genie能够精确地执行“左”、“右”、“跳跃”、“无操作”等基本指令。 图5:Genie可以精确执行具体的移动指令资料来源:GoogleDeepMind,中国银河证券研究院 Genie能够完全从互联网视频中来学习精确地控制画面。由于互联网视频通常没有关于正在执行哪个动作的标签,也没有关于图像的哪个部分应该被控制的标签,因此这对模型是一个挑战。Genie表现出了出色的性能:它不仅学习观察了哪些部分通常是可控的,而且还可以推断出在生成的环境中一致的各种潜在行为。这使得Genie可以在不同的提示图像中用相同的潜在操作产生相似的行为。 图6:Genie可以在不同的提示图像中用相同的潜在操作产生相似的行为资料来源:GoogleDeepMind,中国银河证券研究院 Genie还可以在生成的过程中模拟视差,这是平台游戏中的常见功能,即当平台游戏的屏幕发生横移时,前景移动得更多,而背景只稍微移动。从下面由文本生成的图像来看,Genie较好的完成了模拟视差的任务,近景和远景的移动幅度模拟出了人观测的视觉效果。 图7:Genie可以模拟平台游戏在横移时的近远景视差 资料来源:GoogleDeepMind,中国银河证券研究院 二、Genie与Sora对比 表1:Genie与Sora对比 公司 Google OpenAI 产品 Genie Sora 定位 基础世界模型 AI视频生成模型 对比优势 1.模型在行动指令的执行和精确度上表现较好,基本没有出现“穿帮”的画面。 2.模型由行动驱动,具有推断行动的能力。 3.学习素材为无标签的公开游戏视频和机器人视频等,能够自动分辨画面中的可操作部分 1.能够生成较长时间(可达60s)的高质量视频,使得AI生成视频真正具有了一定的生产力价值。 2.针对之前AI视频工具的不足和痛点进行了改 进,生成的视频质量总体来说更高。 目前的局限 1.目前主要的测试和生成样本在平台游戏; 2.从Google展示的测试效果来看,画面的精细度和清晰度略逊于Sora。 1.一些物理过程仍不能完美模拟(如玻璃破碎),且有时不能准确模拟出视频中人和物的交互,较长时间的视频中“穿帮”镜头也偶有出现。 2.视频中人和物的动作是由AI学习生成,并非完 全可控,有时会得不到用户满意的结果。 资料来源:GoogleDeepMind,OpenAI,澎湃新闻,中国银河证券研究院 图8:Genie与Sora的生成效果对比资料来源:GoogleDeepMind,OpenAI,中国银河证券研究院 三、投资建议 Genie为生成式AI定义了全新的范式,通过潜动作学习使用户交互成为可能,并且具有推断行动的能力。前期在平台游戏和机器人领域的学习有望推广到更广阔的领域,并利用更大的互联网数据集来进行学习,为培养适应多种环境的AI提供了全新的可能性,即:成为一个能够跨领域且不需要额外专业知识的通用工具。 短期来看,受AI技术及海外催化影响,建议关注海外映射AI产业链的投资机会。经前期调整后,目前板块具有较高的安全边际。中长期来看,随着包括基础世界模型和视频生成模型在内的各种AI模型不断更新迭代,AI技术潜在的应用行业或将受益。建议重点关注以下行业:1)游戏行业:1)游戏行业:完美世界(002624.SZ)、三七互娱(002555.SZ)、恺英网络(002517.SZ)等;2)影视/IP类行业:光线传媒(300251.SZ)、华策影视(300133.SZ)、上海电影(601595.SH)、中文在线(300364.SZ)等。 四、风险提示 AI技术发展不及预期的风险、政策监管环境变化的风险、行业竞争加剧的风险、相关技术应用不及预期的风险。 图表目录 图1:Genie可以根据各种来源的图片生成虚拟世界3 图2:Genie模型的训练过程3 图3:Genie根据潜在轨迹模拟出同一场景下多样化的角色轨迹(合成图像)4 图4:Genie根据潜在轨迹模拟出同一场景下多样化的角色轨迹(手绘草图)4 图5:Genie可以精确执行具体的移动指令4 图6:Genie可以在不同的提示图像中用相同的潜在操作产生相似的行为5 图7:Genie可以模拟平台游戏在横移时的近远景视差5 图8:Genie与Sora的生成效果对比6 表格目录 表1:Genie与Sora对比6 分析师承诺及简介 本人承诺以勤勉的执业态度,独立、客观地出具本报告,本报告清晰准确地反映本人的研究观点。本人薪酬的任何部分过去不曾与、现在不与、未来也将不会与本报告的具体推荐或观点直接或间接相关。 岳铮,传媒互联网行业分析师。约翰霍普金斯大学硕士,于2020年加入银河证券研究院。 免责声明 本报告由中国银河证券股份有限公司(以下简称银河证券)向其客户提供。银河证券无需因接收人收到本报告而视其为客户。若您并非银河证券客户中的专业投资者,为保证服务质量、控制投资风险、应首先联系银河证券机构销售部门或客户经理,完成投资者适当性匹配,并充分了解该项服务的性质、特点、使用的注意事项以及若不当使用可能带来的风险或损失。 本报告所载的全部内容只提供给客户做参考之用,并不构成对客户的投资咨询建议,并非作为买卖、认购证券或其它金融工具的邀请或保证。客户不应单纯依靠本报告而取代自我独立判断。银河证券认为本报告资料来源是可靠的,所载内容及观点客观公正,但不担保其准确性或完整性。本报告所载内容反映的是银河证券在最初发表本报告日期当日的判断,银河证券可发出其它与本报告所载内容不一致或有不同结论的报告,但银河证券没有义务和责任去及时更新本报告涉及的内容并通知客户。银河证券不对因客户使用本报告而导致的损失负任何责任。 本报告可能附带其它网站的地址或超级链接,对于可能涉及的银河证券网站以外的地址或超级链接,银河证券不对其内容负责。链接网站的内容不构成本报告的任何部分,客户需自行承担浏览这些网站的费用或风险。 银河证券在法律允许的情况下可参与、投资或持有本报告涉及的证券或进行证券交易,或向本报告涉及的公司提供或争取提供包括投资银行业务在内的服务或业务支持。银河