传媒 视觉AI应用持续迭代,静待绽放市场潜力 大模型多模态能力持续升级,海外科技公司稳定迭代:AI具体场景应用技术能力取决于底层大模型技术潜力:大模型一般分为基础大模型(L0),提供通 用的模型能力,不针对任何特定使用场景;垂直领域或者行业领域大模型(L1)不针对某一个具体应用场景。从技术逻辑而言,AI应用的具体能力取决于底 证券研究报告|行业专题报告 2024年10月11日 强于大市(维持评级) 行业走势 层大模型性能。2024年九月份。随着OpenAI的GPTo1、谷歌的Gemini1.5pro和GeminiUltra、以及MetaAI的Llama3.2这些模型在性能上的提升、成本的降低以及响应速度的加快,展示了AI技术快速进步的步伐。随着模型的不断优化和升级,我们看到了AI在推理分析、创意生成和情绪智能三个方向上的实质性飞跃。 AI大模型多模态能力持续提升,AI应用有望从中受益:国内AI大模型多模 17% 10% 4% -3% -9% -16% -22% -29% 传媒沪深300 2023-102024-022024-062024-10 态能力正持续提升,如快手可灵AI大模型、字节豆包AI大模型等视频生成 的效果正在持续提升,包括精准语义理解、一致性多镜头生成、动态运镜等。受益于底层技术能力的升级,国内AI应用持续迭代,token调用量持续增长。同时月之暗面的Kimi、脸盟科技的即梦AI等二线厂商持续迭代发力,应用端数据持续刷新。我们认为国内AI应用端用户心智正在逐步改善,看好未来模型及应用商业化进程推进带来的投资机会。 国内众多上市公司具备AI应用储备,有望绽放市场潜力:光线传媒积极探索AI技术,尤其是在动画的前期制作方面应用较为广泛;中文在线积极开展 AI大模型及多模态方面技术建设,赋能公司主业。公司此前自研大模型“中文逍遥”已于5月通过网信办大模型备案,目前已向部分作者开放使用;2024年5月,捷成股份的创作引擎ChatPV正式发布,并接入华为云盘古大模型的通用语言解析能力,服务于AI视频创作应用。国内众多上市公司具备AI储备,深度参与AI应用产业链,随着AI底层模型技术性能不断提升、应用场景不断发展,国内AI应用有望绽放市场潜力。 投资建议:我们认为随着AI全行业的高速迭代,国内AI应用存在巨大市场空间,建议关注具备AI应用场景及AI应用落地的相关企业。 相关标的:快手;美图公司;视觉中国;百度集团;华策影视;凡拓数创;捷成股份;中文在线;因赛集团;蓝色光标;光线传媒等。 风险提示:AI发展不及预期、国内AI应用市场不及预期、政策变化风险、 AI拓展成本过高风险等。 作者 分析师侯宾 执业证书编号:S1070522080001邮箱:houbin@cgws.com 相关研究 1、《教育专题8.18》2024-09-27 2、《A股传媒整体承压,港股互联网收入增速放缓但盈利能力显著提升》2024-09-12 3、《《黑神话:悟空》即将发售,新游戏陆续上线带动板块上行》2024-08-16 内容目录 1.AI大模型多模态能力持续升级,海外科技公司稳定迭代3 1.1底层大模型性能决定AI应用技术能力3 1.2大型视觉模型发展迅速,Sora展现赛道潜力3 1.3海外科技公司稳定迭代,人类科技征战星辰大海4 2.国内企业迅速跟进,视觉能力迅速升级5 2.1快手可灵AI全面开放API服务,多项能力迎来升级5 2.2字节豆包多模态能力持续提升,视频模型实现显著突破5 2.3即梦AI:7 3.重点上市公司梳理7 3.1光线传媒7 3.2华策影视7 3.3捷成股份7 3.4美图公司8 4.风险提示8 图表目录 图表1:从底层大模型到AI应用的逻辑架构3 图表2:视觉模型Sora运行逻辑实例4 图表3:核心海外科技公司最新开源大模型4 图表4:可灵AI全面开放API服务5 图表5:可灵AI新增对口型功能5 图表6:豆包AI视频生成模型6 图表7:豆包AI模型商业化场景6 图表8:豆包大模型家族6 1.AI大模型多模态能力持续升级,海外科技公司稳定迭代 1.1底层大模型性能决定AI应用技术能力 AI具体场景应用技术能力取决于底层大模型技术潜力:大模型一般分为基础大模型(L0),提供通用的模型能力,不针对任何特定使用场景;垂直领域或者行业领域大模型(L1) 不针对某一个具体应用场景,结合某个领域的通用知识或技能做了针对性的训练;最上面是场景任务模型,是在L0或L1任一种的基础上结合用户需求和使用场景所做的极具针对性的训练形成的模型,可以用于解决具体问题,提供直接满足用户需求的方案和结果。从技术逻辑而言,AI应用的具体能力取决于底层大模型性能。 图表1:从底层大模型到AI应用的逻辑架构 资料来源:视觉中国2023年度报告,长城证券产业金融研究院 1.2大型视觉模型发展迅速,Sora展现赛道潜力 大型视觉模型持续发展,能力边界显著提升:大型视觉模型(LVMs)是指专为处理和解释视觉数据(通常是图像或视频)而设计的先进人工智能(AI)模型。可以将它们视为视觉版的大规模语言模型(LLMs)。 这些模型之所以被称为“大型”,是因为它们拥有大量的参数,通常达到数百万乃至数十亿级别,从而使它们能够学习视觉数据中的复杂模式。 图表2:视觉模型Sora运行逻辑实例 资料来源:《Sora:AReviewonBackground,Technology,Limitations,andOpportunitiesofLargeVisionModels》长城证券产业金融研究院 大型视觉模型(LVMs)已经在计算机视觉领域取得了重大进展。起初,这些模型擅长理解和解释复杂的图像数据。然而,它们在不同行业间有效扩展的能力构成了一项挑战。解决方案是开发更为专业化、面向特定领域的模型。这些先进的模型不仅在处理和分析视觉数据方面高效,还能适应不同业务领域的需求。 1.3海外科技公司稳定迭代,人类科技征战星辰大海 9月份海外科技公司加速迭代核心模型:随着OpenAI的GPTo1、谷歌的Gemini1.5pro 和GeminiUltra、以及MetaAI的Llama3.2这些模型在性能上的提升、成本的降低以及响应速度的加快,展示了AI技术快速进步的步伐。随着模型的不断优化和升级,我们看到了AI在推理分析、创意生成和情绪智能三个方向上的实质性飞跃。 图表3:核心海外科技公司最新开源大模型 OpenAI 谷歌 MetaAI 最新模型 GPTo1 Gemini1.5pro Llama3.2 上线时间 2024年9月 2024年9月 2024年9月 o1在生成回答之前会 进行更长时间的“思 核心能力 考”,这使得它在处理逻辑、数学、编程和科学领域的复杂问题时 表现得更为出色。 Gemini1.5Pro在 MMLU-Pro基准测试中的性能提高了7% Llama3.2系列模型包括90B和11B两种参数规格的视觉大语言 模型。这些模型允许开 数学相关任务的改进发者自由下载、修改和 达到了20% 定制模型,适应各种不 同的应用需求。 资料来源:OpenAI。MetaAI,谷歌,长城证券产业金融研究院 , 大模型性能显著提升:谷歌的Gemini系列模型在多任务语言理解测试中超越了人类专家,显示出在理解和推理复杂主题方面的能力;GPTo1在解决复杂方程式、证明定理和 探索新的数学概念方面表现出色,对数学领域的学生和研究人员都有潜在的好处。OpenAI创始人SamAltamn在2024年9月份指出了深度学习是有效的,可以真正地学习任何数据分布(或者说,产生任何数据分布的底层“规则”),并到令人震惊的程度,可用的计算和数据越多,它就越能帮助人们解决难题。未来AI可能会像过去的魔法一样,提供无与伦比的生产力。 2.国内企业迅速跟进,视觉能力迅速升级 2.1快手可灵AI全面开放API服务,多项能力迎来升级 快手可灵AI再次升级,全面开放API服务。9月30日,快手可灵AI迎来第十次升级,宣布正式全面开放API(应用程序接口),全面开放视频生成、图像生成、虚拟试穿等接 口能力,并支持在线下单、Key管理、订单管理、用量查询等全流程操作。开发者无需申请,自助下单即可快速接入。此外,本次升级亦新增了多项功能: 新增对口型功能:在可灵AI生成人物视频后,上传音频,即可让视频人物口型和音频同步。可灵1.0及1.5模型生成的视频,只要满足视频画面的人脸条件,均支持 对口型(目前仅支持人物类角色(真实/3D/2D)进行对口型,动物类角色对口型暂不支持); 上线“创意圈”:上线了创作社区“创意圈”,为创作者打造一个AI创作的专属交流平台。创作者可自行上传素材或短片,发布作品,也可以在完成可灵AI生成视频或图片时直接分享至创意圈。同时,可灵AI还推出了限时灵感值激励方案,单作品最高可得666灵感值,鼓励优质内容创作; 根据快手投资者日,截至24年9月,已有累计超260万人使用过可灵AI,并累计生成超2700万个视频、5300万张图片。自可灵AI大模型6月发布以来已经经过了十次 迭代升级,我们认为随着创作功能的持续丰富以及逐渐降低的视频生成创作门槛,用户有望享受到AIGC生产力的高效率,持续改善AI应用用户心智,促进AI视频内容创作多元化发展,进而推动视频生成大模型走向更多创新应用场景。 图表4:可灵AI全面开放API服务图表5:可灵AI新增对口型功能 资料来源:IT之家,长城证券产业金融研究院资料来源:IT之家,长城证券产业金融研究院 AI矩阵嵌入快手业务场景,平台商业竞争力有望持续提升。快手的AI矩阵已经无缝嵌入多个业务场景,支持内容创作、内容理解与推荐和用户互动。这一强大的组合为商家和营销客户提供了更高效的工具,从而大大提升了平台商业竞争力 2.2字节豆包多模态能力持续提升,视频模型实现显著突破 字节豆包AI视频模型能力持续突破,多模态能力持续升级:9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,豆包图生视频模型(PixelDance)、文生视频模型 (Seaweed)两款大模型发布,面向企业市场开启邀测。 该模型在(1)语义理解能力;(2)多个主体运动的复杂交互画面;(3)多镜头切换的内容一致性;(4)多比例、多尺寸的视频生成等方面达到世界领先水平。 该模型基于DiT架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法还攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。 图表6:豆包AI视频生成模型 资料来源:新浪AI,2024火山引擎AI创新巡展,长城证券产业金融研究院 AI能力持续迭代,有望于电商营销、动画教育、城市文旅等领域实现商业化落地:谭待于2024火山引擎AI创新巡展上表示,豆包视频生成模型从一落地就开始考虑商业化, 使用领域包括电商营销、动画教育、城市文旅和微剧本。受益于产品能力的持续完善,截至9月豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时猛增十倍,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。 图表7:豆包AI模型商业化场景图表8:豆包大模型家族 资料来源:新浪AI,火山引擎AI创新巡展,长城证券产业金融研究院新浪AI,火山引擎AI创新巡展,长城证券产业金融研究院 2.3即梦AI: 香港执行联系汇率制度,锚定美元,其加息和降息都是跟随美联储,隔夜美联储降息后香港也降息50基点。我们认为美联储开启降息周期后,全球资金有望迎来再配置,或为港股带来海外资金流入。 3.重点上市公司梳理 3.1光线传媒 光线传媒24H1实现营收13.34亿元,同比增长120.43%;实现归母净利4.73亿元,同比增长133.14%;实现扣非净利4.61亿元,同比增长143.90%。其中24Q2实现营收 2.64亿元,同比增长