行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

AI+专题系列点评（六）：Genie点评：生成交互式AI模型

2024-02-28吴鸣远华创证券李***

AI智能总结

Genie：开创性交互式虚拟环境与投资机遇

主要内容概览：

一、无监督训练的生成式交互环境

Genie：一个基于仅视频数据训练的交互式生成环境，具有110亿参数，能够创建完全想象的虚拟世界并与用户互动。
内存高效ST-transformer架构：在模型组件中采用此架构以平衡内存和计算约束，支持高效率的训练和运行。
关键组件：包括潜在行动模型、视频tokenizer和自回归动态模型，共同支撑用户在生成环境中的逐帧互动体验。

二、模型性能与广泛应用

扩展性与稳定性：Genie性能随模型大小和批处理数量增加而提升，显示出稳健的扩展性和适应性。
跨领域应用：通过大规模数据训练，Genie展现出生成高保真、可控视频的能力，适用于多种领域，如平台游戏、机器人学等。

三、投资建议

算力基础：关注海光信息、寒武纪、龙芯中科等公司，它们为高性能计算提供关键硬件支持。
服务器提供商：中科曙光、浪潮信息、紫光股份、高新发展、神州数码、拓维信息等，这些公司提供支撑计算密集型应用的服务器解决方案。
大模型开发：科大讯飞、商汤、三六零等公司在大模型开发和应用方面具有优势。
AI+应用：金山办公、万兴科技、美图、虹软科技、当虹科技等，专注于将AI技术集成到具体应用中，创造创新价值。

四、风险提示

技术发展不确定性：多模态技术的发展速度可能不达预期。
基础设施建设挑战：算力基础设施建设的进度可能影响整体应用效能。
市场需求波动：AI应用的市场需求可能因外部因素而变化。

结论：

Genie作为一项开创性的交互式虚拟环境技术，不仅展示了在无监督训练下生成高度可控和丰富的虚拟世界的潜力，还为相关领域带来了广泛的创新可能性。投资建议聚焦于支持高性能计算、服务器解决方案、大模型开发和AI集成应用的公司，同时需关注技术发展的不确定性和市场风险。

事项：继Gemini，Gemma之后，2024年2月26日，Google又推出了Genie，其生成的虚拟环境自主可控。评论： Genie是一个从仅视频数据中训练的生成交互式环境。Genie可将看不见的图像作为提示，从而有创建完全想象的虚拟世界，并与用户交互，用户可以在Genie生成的环境中进行逐帧行动，Genie开拓了具有创造力的表达新方式。此外，谷歌提出Genie学到的潜在动作可以转移到真实的人类设计的环境中，应用于多个领域，且不需要任何额外领域知识。 Genie基于内存高效架构，训练过程无动作标签数据。Genie在模型组件中采用内存高效ST-transformer架构，用以平衡内存和计算约束。用户可以在Genie生成的环境中进行逐帧行动，该功能主要由三个关键组件决定，潜在行动模型、视频tokenizer及自回归动态模型。 Genie性能优良，应用场景广泛。Genie具有良好的稳健性，大规模数据训练效果优良。此外Google仅使用OOD来定性评估Genie模型。定性实验结果表明，Genie可以生成跨不同领域的高保真、可控视频。Genie突破限制，模拟可变形物体，未来Genie可以被用于训练多任务智能体的基础世界模型。投资建议：Genie作为一种通用方法，性能优良，未来应用场景广泛，有望带动游戏等创新型行业发展，涉及算力、大模型以及AI+应用（绘图、视频）等领域。建议关注：1）算力基础：海光信息、寒武纪、龙芯中科；2）服务器：中科曙光、浪潮信息、紫光股份、高新发展、神州数码、拓维信息等；3）大模型：科大讯飞、商汤、三六零等；4）AI+应用：金山办公、万兴科技、美图、虹软科技、当虹科技。风险提示：多模态技术发展不及预期、算力基础设施建设不及预期、AI应用需求不及预期。一、无监督训练的生成式交互环境 Genie是一个从仅视频数据中训练的生成交互式环境。作为110亿参数的基础世界模型，Genie可以将看不见的图像作为提示，从而有创建完全想象的虚拟世界，并与用户交互，用户可以在Genie生成的环境中进行逐帧行动，Genie开拓了具有创造力的表达新方式。此外，谷歌提出Genie学到的潜在动作可以转移到真实的人类环境中，应用于多个领域，而不需要任何额外的领域知识。图表1 Genie—生成交互式环境 Genie在模型组件中采用内存高效的ST-transformer架构。Genie架构中的多个组件基于ViT(Vision Transformer)构建而成。由于Transformer的二次内存成本在视频领域中较高，视频最多可以包含𝑂(10^4 )个token。因此，谷歌在所有模型组件中采用内存高效的ST-transformer架构，用以解决模型容量与计算约束问题。图表2 Genie采用内存高效的ST-transformer架构 Genie功能实现主要由三个关键组件决定。用户可以在Genie生成的环境中进行逐帧行动，该功能主要由三个关键组件决定，潜在行动模型、视频tokenizer及自回归动态模型。潜在行动模型可推断帧之间的潜在动作，为实现可控的视频生成，Genie将前一帧采取的动作作为未来帧预测的基础，并以完全无监督的方式学习潜在动作；视频tokenizer将原始视频帧转换为离散token，在整个视频序列上使用标准的VQ-VQAE进行训练；自回归动态模型在给定潜在动作和过去帧token的情况下，预测视频的下一帧。Genie从超过20万小时的公开互联网游戏视频的大型数据集进行训练，尽管在训练过程中没有任何真实动作标签数据，但Genie能从互联网视频中学习细粒度的控制，。图表3 Genie功能的三个关键组件二、模型性能优良，应用场景广泛（一）Genie受益于扩展，性能稳健 Genie受益于扩展，批增加带来模型增益。Google对 41M 至2.7B的模型进行实验，探讨模型大小和批大小的影响。实验结果表明，Genie受益于扩展，随着模型大小的增加，最终训练损失会减少，同时，批大小的增加会增益模型的性能。 Genie具有稳健性，大规模数据训练效果优良。Google在Platformers数据集上训练Genie 11B参数模型，并在Robotics数据集上训练较小的模型，此外Google仅使用OOD来定性评估Genie模型。定性实验结果表明，Genie可以生成跨不同领域的高保真、可控视频。图表4批增加及扩展增益Genie性能（二）作为通用方法，未来应用场景广泛 Genie可模拟可变形物体，训练多任务智能体。模拟可变形的物体，对于人类设计的模拟器来说，这是一项具有挑战性的任务，Genie可以从数据中学习。Google从RT1数据集中训练了一个关于无动作机器人视频的单独模型，学习具有一致潜在行动的生成环境。结果表明，Genie已经可以用于在给定起始帧的全新模拟强化学习（RL）环境中生成不同的轨迹，未来Genie可被用在训练多任务智能体的基础世界模型中。即Genie可以无需任何额外的领域知识应用于多领域。图表5 Genie可在多领域应用图表6 Genie模拟可变形物体三、投资建议 Genie作为一种通用方法，性能优良，未来应用场景广泛，有望带动游戏等创新型行业发展，涉及算力、大模型以及AI+应用（绘图、视频）等领域。建议关注：1）算力基础：海光信息、寒武纪、龙芯中科；2）服务器：中科曙光、浪潮信息、紫光股份、高新发展、神州数码、拓维信息等；3）大模型：科大讯飞、商汤、三六零等；4）AI+应用：金山办公、万兴科技、美图、虹软科技、当虹科技。四、风险提示多模态技术发展不及预期、算力基础设施建设不及预期、AI应用需求不及预期。

点击免费查看完整报告

AI+专题系列点评（六）：Genie点评：生成交互式AI模型

Genie：开创性交互式虚拟环境与投资机遇

主要内容概览：

结论：

你可能感兴趣

AI+专题系列点评（二十二）：豆包AI：多主体互动与高效计算的视频生成

影视传媒行业周报：谷歌发布AI世界模型Genie，AI视频生成平台LTX Studio已推出

人工智能周报（24年第9周）：DeepMind推出2D游戏生成模型Genie，微软宣布与Mistral AI建立合作

AI+专题系列点评（十七）：DeepSeek发布第二代MoE模型，降本增效有望加速AI应用普及

AI+专题系列点评（十六）：abab 6.5系列模型：高效文本处理与万亿参数，引领AI投资新趋势