您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华创证券]:传媒行业深度研究报告:多模态AI的五重奏,国产大模型的探索序章 - 发现报告
当前位置:首页/行业研究/报告详情/

传媒行业深度研究报告:多模态AI的五重奏,国产大模型的探索序章

信息技术2024-04-03刘欣华创证券d***
AI智能总结
查看更多
传媒行业深度研究报告:多模态AI的五重奏,国产大模型的探索序章

为什么要探讨多模态?从大模型赋能企业发展的三种模式出发。我们认为大模型的多模态迭代将直接影响下列三种模式的应用水平——1)大模型+原有业务:常见于科技大厂,利用大模型提升传统业务的智能化程度,同时用传统业务的庞大数据资源反哺大模型迭代。2)开源大模型+AI产品:大量中小开发者申请部署开源大模型去开发各自的AI产品,降低研发成本。3)垂类模型+行业数据:适合拥有海量高质垂类数据的中大型企业,需要基于一个通用大模型作为底座。这三种模式包罗各行各业的大中小企业、没有优劣之分,会随着多模态AI的迭代不断碰撞出新的火花。 多模态方面,建议关注预计确定性较强的【文本】、后续期待值高的【视频】、短期爆发力强的【音频】三大方向。1)文本:面对海外大模型的一超多强,国产大模型在追赶中已探索出差异化优势。Kimi(月之暗面)和冒泡鸭/MoE(阶跃星辰)在中文语义、长文本方面表现亮眼。预计下一阶段的文本差异化竞争可能是用户的定制化竞争——基于在手用户的特征搜集,形成更深的产品护城河。2)视频:Sora尚未公测之际,国内厂商也交出有竞争力的答卷。爱诗科技在发展早期就探索当前大火的DiT架构,其产品PixVerse在测评表现中不输Runway、Pika等头部厂商。AI生成视频已经可以希冀商业化用途,进而衍生出对视频语料库和IP、版权的强烈需求,拥有高质量视频语料库的公司将具有竞争优势。3)音频:在TTS、语音设计、SVC三种产品类型里,我们认为前两者的市场潜力更大,TTS发展更成熟,特别是科技大厂未来可能会与传统业务结合释放巨大潜力。语音设计技术难度更高,看好Suno的研发投入空间和后续迭代,长期有望改写音乐创作市场格局。SVC更工具化,OpenAI发布的产品猜想会是一个中间形态,远期价值在于与AI视频、或其他模态的结合。 【图片】发展趋于成熟,【3D】则处于萌芽期,两者都有望反哺AI视频。虽然图片和视频都对素材训练要求极高,但是AI图片的产品/社区成熟度显著高于视频,头部AI图片产品的用户访问量更趋稳定(榜单变化小)。目前风格和角色一致性都有不错的进展,后续关注场景一致性若得以解决,或意味着AI生图正式进入规模化商业进程,连带AI视频的一致性也可能受益并得以突破。AI生成3D模型目前仍处早期,精度不足限制商业化,长期看有望助力AI视频和游戏、电影行业的发展。 投资建议:基于全球AI产业发展阶段判断,我们认为中国厂商进入快速追赶期,可重点关注文本、视频、音频三大方向,并基于此关注AI产业链投资机会。 1)上游:语料库概念 AI+文本语料:中文在线、南方传媒、掌阅科技、荣信文化、山东出版、中原传媒、中国科传、新华文轩; AI+视频数据:相较于文本语料,视频语料更具稀缺性,商业化逻辑顺畅。 建议关注华数传媒、华策影视、中广天择、电广传媒、捷成股份。 2)下游:B端/C端应用场景 AI+游戏/社交:恺英网络、神州泰岳、巨人网络、昆仑万维、盛天网络; AI+广告/电商:易点天下、值得买、因赛集团等; AI+影视/IP:全年维度看好,电影大盘高景气度,叠加AI+视频或为今年较高确定性进展方向。建议关注:光线传媒、万达电影、上海电影、博纳影业、中国电影等。 风险提示:AI技术发展水平不及预期,国内厂商竞争格局恶化,法律监管趋严风险,地缘政治导致的供应链风险,应用端消费需求不及预期等。 投资主题 报告亮点 本报告系统复盘了AI五大模态(文本、图片、视频、音频、3D)的当前进展,并梳理海内外发展趋势,判断中国厂商进入快速追赶期,可重点关注文本、视频、音频三大方向,并基于此重视AI产业链投资机会。 文本方面,我们花了较大篇幅去解释国产厂商在长文本的差异化优势,以及长文本的竞争壁垒,我们认为随着大厂下场深入大模型的长文本领域,国产大模型在中文语义方向的优势将会持续放大(相较于海外大模型)。 视频和音频方面,我们对比海内外产品并对该模态的未来商业化/竞争格局做了一些猜想。 投资逻 通过梳理五大模态,我们建议关注预计确定性较强的【文本】、后续期待值高的【视频】、以及短期爆发力强的【音频】三大方向。 1)上游:语料库概念 AI+文本语料:中文在线、南方传媒、掌阅科技、荣信文化、山东出版、中原传媒、中国科传、新华文轩; AI+视频数据:相较于文本语料,视频语料更具稀缺性,商业化逻辑顺畅。 建议关注华数传媒、华策影视、中广天择、电广传媒、捷成股份。 2)下游:B端/C端应用场景 AI+音乐社交/游戏:盛天网络、巨人网络、恺英网络、神州泰岳; AI+广告/电商:值得买、易点天下、因赛集团等; AI+影视/IP:全年维度看好,电影大盘高景气度,叠加AI+视频或为今年较高确定性进展方向。建议关注:光线传媒、万达电影、上海电影、博纳影业、中国电影等。 一、多模态的五感共鸣,AI技术跨界协奏 人工智能的概念自提出已有近70年历史。2018年,Open AI发布GPT-1模型,标志着预训练模型在自然语言处理领域的兴起。2020年开始,大规模语言模型的发展迎来了一个显著的加速期:OpenAI发布GPT-3,以1750亿的参数量成为了当时最庞大的语言模型。此后,一系列创新方法相继涌现,包括利用人类反馈进行强化学习(RLHF)、代码预训练等技术,旨在进一步提升模型的推理能力。22年底及23年初,GPT-3.5和GPT-4相继问世,GPT-4具备了多模态理解与多类型内容生成能力。从GPT系列的发展路径来看,技术层面的突破离不开强大的算力基础设施+海量高质数据的支持和训练+在Transformer架构基础上不断精调。 图表1大模型发展历程 据中国电信研究院分析,国外行业大模型发展模式主要有三种,一是“龙头大模型+原有业务”,二是“龙头大模型+外部行业数据”,三是“开源大模型+自有行业数据搭建行业大模型”。结合中国电信研究院的观点,我们认为海内外的大模型赋能企业发展主要有三种模式: 1)大模型+原有业务:国际巨头布局大模型较早,或投资或自研(微软作为OpenAI最大股东、谷歌自研Gemini系列、以及Meta自研Llama系列等),并利用大模型赋能各自原有的强势业务线,做产业升级。比如微软用GPT-4赋能Azure云服务、Office365、搜索业务等;谷歌和Meta利用大模型生成创意广告文案/图片赋能广告主,抑或是在广告业务的多个环节提升精准度和效率。该模式常见于大厂,大模型+原有业务即利用大模型的语言能力提升传统业务的智能化水平,同时利用传统业务积累的庞大数据资源反哺大模型持续迭代。 2)开源大模型+AI产品:随着开源大模型的出现(Meta于23年7月开源可商用大模型Llama-2),一方面,由于Llama-2是一个免费、技术更强且可以直接商用的竞对,高性能开源大模型的出现削弱了国产大模型的竞争力;但另一方面,大量中小开发者和企业申请部署开源大模型去开发各自的AI产品,大大降低了开发成本。但是Llama的开源也存在弊端,例如仅适用于英文环境,而百川智能的开源模型则弥补了中国开源生态的短板。 3)垂类模型+行业数据:虽然通用大模型适用场景更广,但垂类大模型更符合垂直场景需求(营销/金融/电商/新闻/教育等),训练数据更聚焦,输出结果更符合用户偏好。此类模型需要选择一个通用大模型作为底座,并用垂类数据进行训练,进行模型微调后形成,适合拥有海量高质行业数据的中、大型企业。例如蓝色光标的营销行业大模型Blue AI、易点天下的Kreado AI、因赛集团的InsightGPT等。 我们认为大模型基座的能力将直接影响上述三种模式的应用水平。微软亚洲研究院认为,大模型基座的重要特征是拥有多模态能力,后文我们也将从文本、图像、音频、视频、3D模型五个模态去展开分析当前大模型基座能力和应用水平。 (一)文本 我们将大模型的迭代路径分为三个:1)多模态能力;2)逻辑推理能力;和3)长文本能力。从能力纬度来看,国产大模型在追赶,并且是用差异化优势在奋力追赶。 1、多模态&逻辑推理:海外大模型一超多强 从海外主流大模型看其迭代路径,基本可以归纳为:更多的模态和更强大的推理能力。 从单一模态(文本)向多模态的迭代。多模态(图像、音频、视频)核心是在一个共同的语义空间整合不同模态的数据。如GPT-3主要关注文本模态,而作为后续迭代,GPT-4则能够理解和生成图像、视频等。多模态的进化也使得大模型的应用场景被拓宽,如图像标注、视频内容理解、文生图和文生视频等。 多模态下的超大参数和“上下文窗口”(tokens)。通常而言,模型的训练参数越多,表达能力越强,也能够捕捉更复杂的数据模式,当然也意味着更多的训练数据和算力。多模态大模型的训练参数更大,Open AI的GPT-4达到1.8万亿(vs文本类大模型GPT-3有1750亿参数),谷歌的Gemini-1.5也达到1.5万亿(vs Gemini 1.0约1500亿);对于文本类模型的Llama2和Mixtral而言,训练参数在百亿级别。而“上下文窗口”的拓展则能增加模型的可处理信息量,使得模型在长内容方面突破。根据谷歌官方披露,Gemini 1.5 Pro可一次处理包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。 图表2海外主流大模型规格对比 大模型评测中很重要的一个步骤是衡量模型的性能,通过常识、逻辑、数学、代码能力等多个维度给出准确率或错误率的判断。Anthropic发布的Claude-3系列包含三个模型,按能力由弱到强排列,分别是Haiku、Sonnet和Opus,其中Opus的各项指标都领先GPT-4和Gemini系列,或意味着大模型的推理能力也将随着不断推出的新版本得以提升。 图表3Claude-3 benchmarks,逻辑推理能力或超过GPT-4和Gemini 国内大模型的性能加速追赶海外。OpenCompass于2023年7月由上海人工智能实验室推出,构建了一套中英文双语评测基准,旨在系统性分析国内外大模型的综合客观性能。 通过其24年1月的榜单,我们观测到智谱清言GLM-4、阿里巴巴Qwen-Max和百度文心一言4.0具有较为全面的性能,在语言和知识等基础能力维度上可比肩GPT-4 Turbo。 图表4国内外大模型年度榜单(2023) 2、长文本:国内大模型“卷”出差异化优势 多模态是主流的迭代路径,互联网大厂利用生态优势将多模态能力融进具体使用场景。 和海外相似,国内大模型的迭代方向也能捕捉到多模态的趋势。如百度文心一言的多模态体现在toB平台“智能云千帆”,帮企业将大模型运用到需要文生图、文生视频的场景;讯飞星火则将多模态能力落地在教师助手、口语训练等教育场景。多模态的训练对参数规模和算力支持要求更高,芯片供给侧的紧缺也一定程度上成为各平台算力扩张的阻碍。 图表5国内大模型规格对比 算力的差距或是国内大模型掣肘的一个重要因素。英伟达的GPU被认为是科技行业“新黄金”,是为生成式AI提供算力的首选。根据Omdia Research的报告,2023年英伟达芯片多数流向海外大厂,Meta和微软两家公司以15万块H100 GPU的购买量并列第一,国内BAT大厂的购买量仅在2-5万左右。 图表6 2023年英伟达H100芯片的流入买家情况 “长文本”能力成为差异化优势的生存之道。月之暗面(Moonshot AI)成立于2023年3月,根据新浪科技新闻,截至2024年3月的最新估值为25亿美元,投资方包括红杉、真格、美团、阿里巴巴等。3月18日,月之暗面宣布Kimi智能助手启动“无损上下文200万字”内测,用户数据表现亮眼。根据新浪科技引述资料,SimilarWeb数据显示,去年10月到今年2月,Kimi访问量从16万增长到292万,仅次于文心一言和阿里通义; 非凡产研预测,3月Kimi的访问量将介于750万到900万之间,半年内有望增长达55倍。 我们不禁思考,文本作为最先出现的模态时至今日依然在出圈,本质上或还是大模