事项: 继Gemini,Gemma之后,2024年2月26日,Google又推出了Genie,其生成的虚拟环境自主可控。 评论: Genie是一个从仅视频数据中训练的生成交互式环境。Genie可将看不见的图像作为提示,从而有创建完全想象的虚拟世界,并与用户交互,用户可以在Genie生成的环境中进行逐帧行动,Genie开拓了具有创造力的表达新方式。 此外,谷歌提出Genie学到的潜在动作可以转移到真实的人类设计的环境中,应用于多个领域,且不需要任何额外领域知识。 Genie基于内存高效架构,训练过程无动作标签数据。Genie在模型组件中采用内存高效ST-transformer架构,用以平衡内存和计算约束。用户可以在Genie生成的环境中进行逐帧行动,该功能主要由三个关键组件决定,潜在行动模型、视频tokenizer及自回归动态模型。 Genie性能优良,应用场景广泛。Genie具有良好的稳健性,大规模数据训练效果优良。此外Google仅使用OOD来定性评估Genie模型。定性实验结果表明,Genie可以生成跨不同领域的高保真、可控视频。Genie突破限制,模拟可变形物体,未来Genie可以被用于训练多任务智能体的基础世界模型。 投资建议:Genie作为一种通用方法,性能优良,未来应用场景广泛,有望带动游戏等创新型行业发展,涉及算力、大模型以及AI+应用(绘图、视频)等领域。建议关注:1)算力基础:海光信息、寒武纪、龙芯中科;2)服务器:中科曙光、浪潮信息、紫光股份、高新发展、神州数码、拓维信息等;3)大模型:科大讯飞、商汤、三六零等;4)AI+应用:金山办公、万兴科技、美图、虹软科技、当虹科技。 风险提示:多模态技术发展不及预期、算力基础设施建设不及预期、AI应用需求不及预期。 一、无监督训练的生成式交互环境 Genie是一个从仅视频数据中训练的生成交互式环境。作为110亿参数的基础世界模型,Genie可以将看不见的图像作为提示,从而有创建完全想象的虚拟世界,并与用户交互,用户可以在Genie生成的环境中进行逐帧行动,Genie开拓了具有创造力的表达新方式。 此外,谷歌提出Genie学到的潜在动作可以转移到真实的人类环境中,应用于多个领域,而不需要任何额外的领域知识。 图表1 Genie—生成交互式环境 Genie在模型组件中采用内存高效的ST-transformer架构。Genie架构中的多个组件基于ViT(Vision Transformer)构建而成。由于Transformer的二次内存成本在视频领域中较高,视频最多可以包含𝑂(10^4 )个token。因此,谷歌在所有模型组件中采用内存高效的ST-transformer架构,用以解决模型容量与计算约束问题。 图表2 Genie采用内存高效的ST-transformer架构 Genie功能实现主要由三个关键组件决定。用户可以在Genie生成的环境中进行逐帧行动,该功能主要由三个关键组件决定,潜在行动模型、视频tokenizer及自回归动态模型。 潜在行动模型可推断帧之间的潜在动作,为实现可控的视频生成,Genie将前一帧采取的动作作为未来帧预测的基础,并以完全无监督的方式学习潜在动作;视频tokenizer将原始视频帧转换为离散token,在整个视频序列上使用标准的VQ-VQAE进行训练;自回归动态模型在给定潜在动作和过去帧token的情况下,预测视频的下一帧。Genie从超过20万小时的公开互联网游戏视频的大型数据集进行训练,尽管在训练过程中没有任何真实动作标签数据,但Genie能从互联网视频中学习细粒度的控制,。 图表3 Genie功能的三个关键组件 二、模型性能优良,应用场景广泛 (一)Genie受益于扩展,性能稳健 Genie受益于扩展,批增加带来模型增益。Google对 41M 至2.7B的模型进行实验,探讨模型大小和批大小的影响。实验结果表明,Genie受益于扩展,随着模型大小的增加,最终训练损失会减少,同时,批大小的增加会增益模型的性能。 Genie具有稳健性,大规模数据训练效果优良。Google在Platformers数据集上训练Genie 11B参数模型,并在Robotics数据集上训练较小的模型,此外Google仅使用OOD来定性评估Genie模型。定性实验结果表明,Genie可以生成跨不同领域的高保真、可控视频。 图表4批增加及扩展增益Genie性能 (二)作为通用方法,未来应用场景广泛 Genie可模拟可变形物体,训练多任务智能体。模拟可变形的物体,对于人类设计的模拟器来说,这是一项具有挑战性的任务,Genie可以从数据中学习。Google从RT1数据集中训练了一个关于无动作机器人视频的单独模型,学习具有一致潜在行动的生成环境。 结果表明,Genie已经可以用于在给定起始帧的全新模拟强化学习(RL)环境中生成不同的轨迹,未来Genie可被用在训练多任务智能体的基础世界模型中。即Genie可以无需任何额外的领域知识应用于多领域。 图表5 Genie可在多领域应用 图表6 Genie模拟可变形物体 三、投资建议 Genie作为一种通用方法,性能优良,未来应用场景广泛,有望带动游戏等创新型行业发展,涉及算力、大模型以及AI+应用(绘图、视频)等领域。建议关注:1)算力基础:海光信息、寒武纪、龙芯中科;2)服务器:中科曙光、浪潮信息、紫光股份、高新发展、神州数码、拓维信息等;3)大模型:科大讯飞、商汤、三六零等;4)AI+应用:金山办公、万兴科技、美图、虹软科技、当虹科技。 四、风险提示 多模态技术发展不及预期、算力基础设施建设不及预期、AI应用需求不及预期。