事项: 国内大模型水平快速发展,不断靠齐海外龙头;国内多模态大模型持续发力,生数科技预期今年实现Sora同等效果。 评论: 国内大模型市场空间广阔,国内企业加大研发投入。当前,大模型市场规模正在以迅猛的速度扩张,根据大模型之家和大数据之家的预测,预计到2028年,全球大模型市场规模将达到1095亿美元,2022~2028年复合增长率约为47.12%;中国大模型市场的规模将接近1200亿人民币,从2022年到2028年,预计的复合增长率约为60.11%。同时,大模型赛道需要更大的研发投入与资金支持,国内企业持续加大研发投入。2023年国内大模型20强企业平均研发投入和单个最大研发投入均明显高于2022年大模型前20强企业,平均研发投入提高了4.3%,最大研发投入占比提高了24.1%。 国内大模型发展势头迅猛,新晋企业有望实现弯道超车。2023年,在短短八个月的时间里,中国科技界官宣了238个新开发的大模型。在过去的一年中,国内领先的大模型企业取得了显著的进步,成功缩小了与GPT-3.5的性能差距。2024年2月的评估中,国内大模型已经在总分上超越了GPT-3.5。智谱AI最新推出的多模态大模型GLM-4,对现有的文本生成图像(CogView3)和代码生成能力进行了显著增强,其中CogView3的表现已超越StableDiffusion XL,并接近DALLE·3。2024年3月18日,Kimi智能助手在长上下文窗口技术上取得重大进展,无损上下文长度提升至200万字;视频领域,如爱诗科技在获得亿级融资后迅速推出内测产品,生数科技凭借数亿元融资及全球首个Diffusion Transformer架构论文确立技术领先地位,潞晨科技推出开创性的Open-Sora开源方案,字节跳动旗下的剪映Dreamina项目启动内测。 生数科技多模态技术日臻成熟,预期今年实现Sora同等效果。公司具备强大的融资能力和技术实力。联合创始人兼CEO唐家渝表示,对今年能够达到Sora当前版本的效果充满信心。公司采用原生多模态大模型技术路径,通过统一的U-ViT架构,实现一个通用模型处理图像、3D、视频等复杂生成任务。目前,公司已能实现快速生成3D模型,并支持文本到3D、图像到3D的转换,以及国际首发的基于骨骼动画的4D动画生成框架AnimatableDreamer。公司已具备短视频生成能力,能够根据文本描述自动变换视频画面元素,实现可控编辑。 在文本到图像领域,公司的图文模型已从1B扩展至10B以上,并在构图、风格、画面精准度等方面超越了Stable Diffusion的最新版基础模型。 投资策略:坚定看好今年多模态大模型的投资机遇,预计今年海内外大模型厂商都将持续蓄力,加速多模态大模型的发展及应用。重点推荐国内多模态核心标的万兴科技,建议关注昆仑万维、虹软科技、当虹科技、国投智能等。同时,AI大模型本质应落脚垂类应用,看好AI+应用产品力与商业化落地进程。建议持续关注AI+应用侧:1)办公:金山办公、福昕软件;2)法律:金桥信息、华宇软件、通达海;3)医疗:润达医疗;4)教育:佳发教育、欧玛软件、新开普;5)金融:同花顺、新致软件;6)邮箱:彩讯股份;7)传媒:掌阅科技、华策影视;8)电商:焦点科技。算力侧:1)算力基础:润泽科技、亚康股份、海光信息、寒武纪、龙芯中科;2)服务器:中科曙光、浪潮信息、紫光股份、神州数码、拓维信息。 风险提示:商业化后表现不及预期,用户付费意愿低,行业技术迭代速度快。 一、国内大模型企业加大投入,追赶势头迅猛 (一)大模型市场空间广阔,国内企业加大研发投入 大模型为AI行业竞争的关键领域,市场规模快速扩张。当前,大模型的市场规模正在迅猛扩张,根据大模型之家和大数据之家的预测,预计到2028年,全球大模型市场规模将达到1095亿美元,2022~2028年复合增长率约为47.12%;中国大模型市场的规模将接近1200亿人民币,从2022年到2028年预计的复合增长率约为60.11%。 国内大模型加大投入,发展空间仍较大。大模型赛道需要持续的高研发投入与资金支持。 2023年国内大模型20强企业平均研发投入和单个最大研发投入均明显高于2022年大模型前20强企业,平均研发投入提高了4.3%,最大研发投入占比提高了24.1%。 图表1中国人工智能大模型20强企业研发投入对比 (二)国内大模型发展势头迅猛,新晋企业有望实现弯道超车 国内科技企业不甘落后,积极开发具有自主知识产权的大模型。2023年,中国在大模型领域的发展速度令人瞩目。在短短八个月的时间里,中国科技界官宣了238个新开发的大模型,平均每1.5天就有一个新模型问世。国内互联网巨头利用其在数据和算法方面的优势,率先布局多模态大模型。例如,百度推出的文心一言能够处理文本信息、生成图片、音频和视频等多模态内容,体现了国产多模态大模型的进步。同时,阿里巴巴、腾讯等其他互联网巨头,以及商汤科技等AI专业公司和智源研究院、智谱等初创机构,也在积极推出并不断优化自己的多模态大模型,逐步缩小与国际先进水平的差距。在过去的一年中,国内领先的大模型企业取得了显著的进步,成功缩小了与GPT-3.5的性能差距。 从最初的20分差距开始,每个月都取得了稳步且显著的提升,到2024年2月的评估中,国内大模型已经在总分上超越了GPT-3.5。 图表2 2024年国内外大模型发展趋势 国内AI大模型竞赛百花齐放,新晋企业群星璀璨。智谱AI最新推出的多模态大模型GLM-4,在性能上已达到GPT-4水平的90%以上。作为国内首家全面对标OpenAI的公司,GLM-4相较于前代GLM-3实现了60%的性能提升,接近GPT-4的最新版本。在多模态功能上,GLM-4对现有的文本生成图像(CogView3)和代码生成能力进行了显著增强,其中CogView3的表现已超越StableDiffusion XL,并接近DALLE·3。多模态基础长上下文领域,2024年3月18日,Kimi智能助手在长上下文窗口技术上取得重大进展,无损上下文长度提升至200万字,并启动内测。这一技术突破引发了市场的广泛关注和概念股的集体上涨;视频领域,继科技界广泛关注的Sora之后,国内创新型企业纷纷加速发展,特别是在AI视频生成领域,如爱诗科技在获得亿级融资后迅速推出内测产品,生数科技凭借数亿元融资及全球首个Diffusion Transformer架构论文确立技术领先地位,潞晨科技推出开创性的Open-Sora开源方案,以及字节跳动旗下的剪映Dreamina项目启动内测。这些企业不仅在市场上取得显著成就,更在技术创新上屡屡实现突破,展现出国内AI多模态市场的强劲发展势头和投资潜力。 图表3国内主流大模型全景图 二、多模态大模型持续发力,生数科技预期今年实现Sora同等效果 生数科技具备强大的融资能力和技术实力,预期今年追齐Sora目前版本的水准。3月12日,公司宣布成功完成最新一轮数亿元级别的融资。本次融资由启明创投主导,达泰资本、鸿福厚德、智谱AI以及老股东BV百度风投和卓源亚洲等投资机构参与跟投,华兴资本作为独家财务顾问。公司计划将本次募集资金主要用于推动多模态基础大模型的技术迭代与研发工作,同时加强应用产品的创新力度,并积极拓展市场版图。根据公开资料显示,公司目前在国内类Sora创业企业中,无论是累计融资额还是估值均位居首位。 公司背后拥有强大的投资方支持,包括百度风投的连续多轮投资,以及大模型领域的独角兽智谱AI的首次参投。此外,蚂蚁集团和由原字节跳动投资团队成员创立的锦秋基金也均选择公司作为其在大模型领域的首次投资对象。公司团队源自清华大学人工智能研究院,技术上具备与Sora团队竞争的实力,并在3D生成模型领域敢于与OpenAI、谷歌、英伟达等国际巨头抗衡。其技术成果已被OpenAI、苹果、Stability AI等公司应用于DALL·E 2、Stable Diffusion等知名模型中。联合创始人兼CEO唐家渝表示,目前国内外在AI视频生成领域的差距并不显著,国内团队追赶Sora的难度要低于2023年追赶GPT-4,公司对今年能够达到Sora当前版本的效果充满信心。 图表4公司在多模态领域具备强大技术实力 生数注重技术和研究突破,多模态技术日臻成熟。公司联合创始人唐家渝在交流中并未将生数定位为Sora的直接竞争者,而是更注重技术和研究的突破。公司不仅追求视频生成技术,同时也专注于3D和图像生成领域的发展。OpenAI推出了多款功能各异的模型,如GPT-4(文本到文本)、DALL·E 3(文本到图像)、GPT-4V(文本和图像到文本)等。 与此不同,公司采用原生多模态大模型技术路径,通过统一的U-ViT架构,实现一个通用模型处理图像、3D、视频等复杂生成任务。 在3D生成领域,公司成立之初便对标业界顶尖模型,如OpenAI的Shap-E、谷歌的DreamFusion、英伟达的Magic3D,并在几何结构精度、纹理细节、分辨率等方面取得显著进步,接近产业级应用水平。目前,公司已能实现快速生成3D模型,并支持文本到3D、图像到3D的转换,以及国际首发的基于骨骼动画的4D动画生成框架AnimatableDreamer。 在视频生成方面,公司已具备短视频生成能力,能够根据文本描述自动变换视频画面元素,实现可控编辑。 在文本到图像领域,公司的图文模型已从1B扩展至10B以上,并在构图、风格、画面精准度等方面超越了StableDiffusion的最新版基础模型。公司的商业模式聚焦于MaaS(模型即服务)和应用级产品,同时服务于B端和C端市场。公司通过API形式向B端机构提供模型能力,并开发垂类应用产品,采用订阅模式进行收费。作为一家成立一年的初创公司,公司已与多家游戏公司、终端厂商、互联网平台和VR企业建立了合作关系。 2023年9月,公司正式上线了两大应用产品:视觉创意设计平台PixWeaver和3D资产创建工具VoxCraft。目前,图像生成和3D生成功能已开放体验,视频生成功能在技术升级和优化后将重新开放。 图表5图像生成能力 图表6 3D生成能力 图表7视频生成能力 图表8公司最新成果