您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:计算机行业:Pika 1.0再掀AI视频热潮,多模态技术路径仍有探索空间 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业:Pika 1.0再掀AI视频热潮,多模态技术路径仍有探索空间

信息技术2023-12-06东方证券风***
AI智能总结
查看更多
计算机行业:Pika 1.0再掀AI视频热潮,多模态技术路径仍有探索空间

行业研究|动态跟踪 看好(维持) Pika1.0再掀AI视频热潮,多模态技术路径仍有探索空间 计算机行业 国家/地区中国 行业计算机行业 报告发布日期2023年12月06日 核心观点 文生视频Pika1.0发布,AI影像热潮再起。11月29日,AI文生视频软件Pika1.0 版本发布,热度迅速席卷全网。Pika成立于今年7月,Pika1.0是其第一个正式推出的版本,能够根据文字自动生成和编辑3D动画、动漫、卡通和电影,还能够支持对于视频的实时编辑和修改。Pika的创始人是两位斯坦福大学人工智能实验室的前博士生郭文景和ChenlinMeng,目前Pika已融资3轮,估值超过2亿美元。到现在为止Pika已经有了50万用户。 近期AI+视频方向更新频发。11月以来,海外在AI生成视频领域的动作进展较快。 11月3日,Runway发布Gen-2模型更新,把生成的视频清晰度提升到了4K精度,改进了结果的保真度和一致性。并随后在11月20日上线了运动笔刷功能,只需对着图像任意位置一刷,就能让静止的一切物体动起来;11月16日,Meta发布了EmuVideo,能够基于文本和图像输入生成视频剪辑;11月18日,字节跳动发布PixelDance,在生成视频的动态性上得到了显著提升;11月21日,StabilityAI发布了自家的生成视频模型StableVideoDiffusion,支持文本到视频、图像到视频生成,并且还支持物体从单一视角到多视角的转化,也就是3D合成。 大语言模型技术路径已收敛,而视频生成模型仍处于探索期。在OpenAI的技术方向引领下,目前语言模型的技术路径基本就是GPT这一条路。而多模态技术方面,目前没有一家公司处于绝对领先地位,技术路径仍存在探索的可能。AI视频的生成 面临流畅性、帧生成逻辑、协调性等等问题,模型需要生成每一帧发生的事情,而用户的prompt往往非常简略,无法像图像生成一样为每一帧提供详细的描述,种种原因都导致了目前AI视频生成技术仍无法做到非常完美,技术路线也多种多样。 语言模型是对物理世界的抽象描述,多模态数据能够更真实反映物理世界属性,能感知真实物理世界的多模态模型应用前景更加广阔。语言作为一种精炼的表述载体,可以对物理世界进行抽象描述,例如文生图和文生视频中,用户都可以用简短 的一句话或者几句话来对想要生成的图像或视频进行描述。但是从承载的信息量来讲,语言所能承载的信息是远远不及图像和视频的。而多模态的数据例如图像、视频、音频、振动等信息,则更加能反映出物理世界的真实属性,是真正对于物理世界状态的感知,与人类感知世界的方式更加接近。我们认为,未来的多模态模型将能够真正实现对世界状态的完整感知,也因此能具备更多的应用场景。 多模态是生成式AI下一步重点方向,百花齐放的应用场景有望探索。现阶段大语言模型的竞争已经非常激烈,从技术突破的角度来看,我们认为,下一阶段的重点攻 克方向必然会是多模态技术。能够真正处理和应用好多模态AI能力,才能真正打通物理世界和数字世界的障壁,用最基础的感知世界能力直接生成操作,实现与物理世界最自然的交互。因此,基于多模态的应用场景仍需不断探索,AI视频生成仅仅是多模态技术路径中的一个小方向,多模态领域的ChatGPT时刻还未到来。 投资建议与投资标的 我们认为,在多模态模型应用场景上具备良好布局和卡位的公司值得关注。建议关注海康威视(002415,买入)(电子组覆盖)、大华股份(002236,买入)(电子组覆盖)、萤石网络(688475,未评级)(电子组覆盖)、中科创达(300496,买入)、虹软科技 (688088,未评级)、科大讯飞(002230,买入)、万兴科技(300624,未评级)等公司 风险提示 技术落地不及预期;政策监管风险 浦俊懿021-63325888*6106 pujunyi@orientsec.com.cn 执业证书编号:S0860514050004 陈超021-63325888*3144 chenchao3@orientsec.com.cn 执业证书编号:S0860521050002 谢忱xiechen@orientsec.com.cn 执业证书编号:S0860522090004 杜云飞duyunfei@orientsec.com.cn覃俊宁qinjunning@orientsec.com.cn宋鑫宇songxinyu@orientsec.com.cn 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、文生视频Pika1.0发布,AI影像热潮再起4 二、视频模型技术路线尚未确定,多模态技术应用前景广阔5 2.1AI+视频更新迭代迅速,技术路线尚未收敛5 2.2多模态能感知真实物理世界,应用前景更加广阔5 投资建议与投资标的11 风险提示11 图表目录 图1:Pika支持视频生成和视频实时编辑4 图2:PikaLabs是G!lab电影工业化实验室的战略合作伙伴4 图3:近期AI视频领域更新5 图4:FSDv12采用端到端AI自动驾驶6 图5:多模态大模型和端到端自动驾驶基本的应用架构7 图6:波士顿动力机器狗接入ChatGPT能力后能与人类交互7 图7:波士顿动力机器狗可以扮演不同性格的导游7 图8:GPT-4V可以与环境进行正确交互8 图9:多模态技术在安防领域视觉问答场景应用9 图10:多模态技术在交通监测场景应用9 表1:近期机器人大模型领域的知名算法9 一、文生视频Pika1.0发布,AI影像热潮再起 11月29日,AI文生视频软件Pika1.0版本发布,热度迅速席卷全网。Pika1.0的宣传视频中显示,在视频输入框内输入“马斯克穿着太空服,3D动画”,一个穿着太空服卡通版马斯克便出现了,也正是这一段视频让Pika吸引到了无数的关注。Pika成立于今年7月,Pika1.0是其第一个正式推出的版本,能够根据文字自动生成和编辑3D动画、动漫、卡通和电影,还能够支持对于视频的实时编辑和修改。 图1:Pika支持视频生成和视频实时编辑 数据来源:Pika,东方证券研究所 Pika团队仅有4名成员,估值超2亿美元。Pika的创始人是两位斯坦福大学人工智能实验室的前博士生郭文景和ChenlinMeng,她们在2022年参加Runway首届AI电影节时,发现Runway和AdobePhotoshop的工具并不好用,于是便退学创立了Pika。目前Pika已经融资3轮,估值超过2亿美元。到现在为止Pika已经有了50万用户。 Pika是G!lab电影工业化实验室的战略合作伙伴。11月,《流浪地球3》正式召开发布会,郭帆导演工作室总经理在会上宣布正式升级G!lab电影工业化实验室,打造专业“剧组”团队。在电影工业化3.0的新时代,PikaLabs作为唯一一个刚成立不久的初创公司,成为G!lab的战略合作伙伴,彰显了Pika在AI视频领域的实力。 图2:PikaLabs是G!lab电影工业化实验室的战略合作伙伴 数据来源:中华网,东方证券研究所 二、视频模型技术路线尚未确定,多模态技术应用前景广阔 2.1AI+视频更新迭代迅速,技术路线尚未收敛 近期AI+视频方向更新频发。11月以来,海外在AI生成视频领域的动作进展较快。11月3日,Runway发布Gen-2模型更新,把生成的视频清晰度提升到了4K精度,改进了结果的保真度和一致性。并随后在11月20日上线了运动笔刷功能,只需对着图像任意位置一刷,就能让静止的一 切物体动起来;11月16日,Meta发布了EmuVideo,能够基于文本和图像输入生成视频剪辑;11月18日,字节跳动发布PixelDance,在生成视频的动态性上得到了显著提升;11月21日,StabilityAI发布了自家的生成视频模型StableVideoDiffusion,支持文本到视频、图像到视频生成,并且还支持物体从单一视角到多视角的转化,也就是3D合成。 图3:近期AI视频领域更新 数据来源:量子位,站长之家,搜狐网,东方证券研究所整理 大语言模型技术路径已收敛,而视频生成模型仍处于探索期。从海外风险投资者的角度看,目前语言模型层面能够挖掘的机会已经不多,在OpenAI的技术方向引领下,目前语言模型的技术路径基本就是GPT——预训练Transformer这一条路,在市面上已经有OpenAI、Anthropic、Inflection、Cohere等比较成熟的语言模型厂商的情况下,很难再去大量投入资金去探索别的语言模型技术路径。而多模态技术方面,目前没有一家公司处于绝对领先地位,技术路径仍存在探索 的可能。AI视频的生成面临流畅性、帧生成逻辑、协调性等等问题,模型需要生成每一帧发生的事情,而用户的prompt往往非常简略,无法像图像生成一样为每一帧提供详细的描述,种种原因都导致了目前AI视频生成技术仍无法做到非常完美,技术路线也多种多样,比如扩散模型、MaskedModel等,Pika目前的算法是基于Diffusion模型开发的一种全新模型。 AI视频生成的ChatGPT时刻有望到来。我们认为,目前AI生成视频的发展类似于GPT-2发展的时期,大家仍在探索模型的架构。按照这样的发展逻辑,AI视频生成的ChatGPT时刻也有望到来,在当下这个对于生成式AI技术重点关注和研究的时代,视频生成的技术突破会比想象中来的更快。未来的视频生成模型将有望能以更加自由的方式生成任意长度的视频。 2.2多模态能感知真实物理世界,应用前景更加广阔 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 语言模型是对物理世界的抽象描述,多模态数据能够更真实反映物理世界属性。语言作为一种精炼的表述载体,可以对物理世界进行抽象描述,例如文生图和文生视频中,用户都可以用简短的一句话或者几句话来对想要生成的图像或视频进行描述。但是从承载的信息量来讲,语言所能承载的信息是远远不及图像和视频的,这也是为什么目前的AI文生视频基本都只能生成几秒钟的视频,因为用户prompt所提供的信息无法支撑更长的视频内容。而多模态的数据例如图像、视频、音频、振动等信息,则更加能反映出物理世界的真实属性,是真正对于物理世界状态的感知,与人类感知世界的方式更加接近。 能感知真实物理世界的多模态模型应用前景更加广阔。我们认为,未来的多模态模型将能够真正实现对世界状态的完整感知,也因此能具备更多的应用场景。 1)智能驾驶 端到端训练有望成为智能驾驶的未来方向。特斯拉的FSD目前已经进化到v12版本,将实现全新的端到端自动驾驶。以往的自动驾驶基本都是分成了导航、定位、感知、预测、规划、控制等多个模块,然后按上下游的顺序来处理。而FSDv12端到端的算法则是把摄像头获取的图像和视频数据输入到神经网络,网络直接输出车辆的控制指令(如转向、加速、制动等),更像是一个人类的大脑,99%的决策都是由神经网络给出的,不需要高精地图、不需要激光雷达,仅仅依靠车身的摄像头视觉输入,就能分析思考,输出控制策略。马斯克在直播试驾中表示,FSDv12从头到尾都是通过AI实现,v12的C++代码只有2000行,而v11有30万行。 图4:FSDv12采用端到端AI自动驾驶 数据来源:Twitter,东方证券研究所 多模态技术是实现端到端自动驾驶的重要手段。端到端自动驾驶主要依靠车身周围的摄像头对外 部世界进行感知来作为算法的输入,AI模型如何处理摄像头提供的图像、视频、声音等不同格式的数据就需要多模态技术的应用。在端到端自动驾驶算法中加入多模态大模型能力还能提升算法的可解释性、鲁棒性和泛化能力,有效处理多种感知信息。通过多模态模型的处理,给出对于车身各个部件的控制参数并进行控制,实现端到端的自动驾驶。 图5:多模态大模型