证券研究报告行业研究行业点评传媒行业投资评级 看好 上次评级 看好 冯翠婷传媒互联网及海外首席分析师执业编号:S1500522010001邮箱:fengcuiting@cindasc.com信达证券股份有限公司CINDASECURITIESCO.,LTD北京市西城区闹市口大街9号院1号楼邮编:100031 阶跃星辰发布万亿参数MoE语言大模型, Kimi长文本处理提升至200万字 2024年3月24日 近期AI相关热点更新: 阶越星辰发布Step系列通用大模型,万亿参数MoE大语言模型亮眼:3月23日,阶越星辰发布Step系列通用大模型,包括Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参 数MoE语言大模型的预览版,提供API接口给部分合作伙伴试用。目前,基于Step-1和Step-1V千亿参数大模型的产品效率工具跃问和AI开放世界平台冒泡鸭已经全面开放。 Kimi再次突破上下文窗口技术,无损上下文长度提升至200万字:3月18日,月之暗面宣布Kimi智能助手在长上下文窗口技术上再次取得突破,无损上下文长度提升了一个数量级到200万字。并从即日起 启动“内测”,对大模型超长无损上下文能力有需求的用户,可到Kimi智能助手网页版kimi.ai首页申请抢先体验。本次无损上下文长度上量级的提升,有望帮助用户探索更多的AI应用方式,给用户带来更大的价值。 OpenAI携Sora模型有望与好莱坞进行合作。人工智能公司OpenAI计划将其突破性的AI视频生成技术带入电影产业。该公司即将与洛杉矶的制片厂和媒体高管展开会谈,探讨合作机会。OpenAI的Sora服务能 根据文本提示生成真实感视频,尽管尚未公开发布,但已在好莱坞引起广泛关注。这一技术的发展和应用,预示着电影制作领域的未来可能将迎来较为明显的变化。 谷歌发布“Vlogger”模型,利用单张图片生成10秒视频:3月20日,谷歌发布了一个新的视频框架:只需要一张头像图片、一段讲话录音, 就能得到一个栩栩如生的本人演讲视频。视频时长可变,目前看到的示例最高为10s,无论是口型还是面部表情,视频表现都非常自然。如果输入图像囊括整个上半身,视频也能配合产出丰富的手势。 SunoAI推出音乐生成模型-V3,面向所有用户免费开发:AI初创公司SunoAI重磅推出了第一款可制作「广播级」的音乐生成模型——V3,仅用几秒的时间,V3便可以创作出2分钟的完整歌曲。用户只用几个 简短的词,用户就可以用任何语言创作一首歌曲。 英伟达GTC大会开幕,Blackwell架构GPU-B200问世:时隔两年,英伟达官宣新一代Blackwell架构,定位为“新工业革命的引擎”。 本次大会亮点频出:宣布全新GPUB200、超级芯片GB200、新一代计算单元GB200NVL72,与相同数量的72个H100相比,GB200NVL72对于大模型推理性能提升高达30倍,成本和能耗降低高达25倍;官宣ai.nvidia.com页面,目标是让任何人都可以通过易于使用的用户界面 体验各种AI模型和应用,同时,企业使用这些服务在自己的平台上创建和部署自定义应用,同时保留对其知识产权的完全所有权和控制权。 投资建议: 受益于全球生成式AI持续发展,文生图/视频/音乐/代码等多方面应用的迭代更新有望长期给诸多行业带来降本增效,重点关注:1)AI+影视:万达电影、华策影视、慈文传媒、上海电影、光线传媒、芒果超媒、超讯通信、因赛集团、视觉中国、华数传媒;2)AI+IP(涉及版权、算料等):中广天择、中文在线、上海电影、华策影视、奥飞娱乐、果麦文化、捷成股份、南方传媒;3)AI+3D:大丰实业、丝路视觉、凡拓数创、恒信东方、风 语筑、锋尚文化、岭南股份;4)AI+营销:分众传媒、三人行、因赛集团、易点天下、值得买、蓝色光标、兆讯传媒、浙文互 联、每日互动;5)AI+教育/阅读:南方传媒、盛通股份、世纪天鸿、掌阅科技等;6)AI+出版:果麦文化、南方传媒、皖新传 媒、时代出版、城市传媒、中南传媒、凤凰传媒、新华传媒等;7)AI+游戏:巨人网络、恺英网络、完美世界、紫天科技、盛天网络、昆仑万维、神州泰岳、三七互娱、掌趣科技、宝通科技、吉比特、名臣健康、姚记科技、顺网科技、汤姆猫、星辉娱乐; 8)其他AI应用:昆仑万维、万兴科技、人民网、新华网、福昕 软件、金山办公等;9)新增关注:新华传媒、松炀资源等。 风险因素:生成式AI公司资本开支不及预期、AI应用迭代不及预期。 日期 公司 事件 3.20 Google 谷歌发布了一个新的视频框架:只需要一张头像、一段讲话录音,就能得到一个栩栩如生的本人演讲视频。视频时长可变,目前看到的示例最高为10s。无论是口型还是面部表情,视频表现都非常自然。如果输入图像囊括整个上半身,视频也能配合产生丰富的手势。这个框架名叫VLOGGER,主要基于扩散模型,并包含两部分:一个是随机的人体到3D运动(human-to-3d-motion)扩散模型。另一个是用于增强文本到图像模型的新扩散架构。其中,前者负责将音频波形作为输入,生成人物的身体控制动作,包括眼神、表情和手势、身体整体姿势等等。后者则是一个时间维度的图像到图像模型,用于扩展大型图像扩散模型,使用刚刚预测的动作来生成相应的帧。VLOGGER的训练是在一个(名叫MENTOR)的大型数据集上完成的,全长2200小时,共包含80万个人物视频。 3.19 StabilityAI 3月19日,StableDiffusion背后公司StabilityAI再次上新图生3D模型SV3D(StableVideo3D),模型基于StableVideoDiffusion,只用一张图片就能生成高质量3D网格。SV3D首次将视频扩散模型应用到了3D生成领域,基于此,SV3D大大提高了3D生成的质量和视图一致性。引入潜在视频扩散模型,SV3D的核心目的是利用视频模型的时间一致性来提高3D生成的一致性,并且视频数据本身也比3D数据更容易获得。StabilityAI这次提供两个版本的SV3D:一个是SV3D_u:基于单张图像生成轨道视频。另一个是SV3D_p:扩展了SV3D_u的功能,可以根据 表1:海外科技企业近期动态汇总 指定的相机路径创建3D模型视频。从与其他大模型的横向对比上,在新视角合成(NVS)和3D重建方面,SV3D超过了现有其他方法,达到SOTA。从定性比较的结果来看,SV3D生成的多视角试图,细节更丰富,更接近与原始输入图像,在理解和重构物体的3D结构方面,能够更准确地捕捉到细节,并保持视角变换时的一致性。 3.19 英伟达 时隔两年,英伟达官宣新一代Blackwell架构,定位为“新工业革命的引擎”。本次大会亮点频🎧:宣布全新GPUB200:两个芯片合在一起,以10TB每秒的带宽互联,组成B200GPU,总计包含2080亿晶体管;超级芯片GB200:两个B200GPU与GraceCPU结合,就成为GB200超级芯片;新一代计算单元GB200NVL72:与相同数量的72个H100相比,GB200NVL72对于大模型推理性能提升高达30倍,成本和能耗降低高达25倍;官宣ai.nvidia.com页面,目标是让任何人都可以通过易于使用的用户界面体验各种AI模型和应用,同时,企业使用这些服务在自己的平台上创建和部署自定义应用,同时保留对其知识产权的完全所有权和控制权。此外,在这次大会上,还宣布了与苹果在VisionPro方面的合作,让开发者可以在工业元宇宙里进行空间计算。此前推�的新光刻技术cuLitho软件库也有了新进展,合作方包括台积电和新思科技。 3.21 腾讯 在游戏开发者大会(GDC)上,腾讯发布自研游戏AI引擎GiiNEX。基于生成式AI和决策AI技术,GiiNEX可以支持游戏从研发到运营的全生命周期需求。具体来说,GiiNEX能高效覆盖包括AINPC的对话生成,场景制作中的3D城市建造,以及剧情、关卡、音乐等内容生成的多个领域。GiiNEX的整体架构包含前沿算法模型、高效训练平台、在线推理引擎三大核心:其中,基于强化学习、自然语言处理等AI基础研究能力构建的统一算法底层模型,能够支持MOBA、FPS、派对游戏等十余种游戏类型。高性能训练平台方面,面向智能体和大模型,GiiNEX可支持万卡规模资源调度。在线推理引擎适配主流设备,可实现移动端与云端的混合部署,保障多端协同。在GDC现场,腾讯展示了GiiNEX在游戏3D城市生成和UGC关卡设计场景中的具体应用。 3.18 月之暗面 3月18日,月之暗面宣布Kimi智能助手在长上下文窗口技术上再次取得突破,无损上下文长度提升了一个数量级到200万字。并从即日起启动“内测”,对大模型超长无损上下文能力有需求的用户,可到Kimi智能助手网页版kimi.ai首页申请抢先体验。Kimi可以根据用户的问题,主动去互联网上搜索、分析和总结最相关的多个页面,生成更直接、更准确的答案。Kimi智能助手的智能搜索,离不开大模型的无损长上下文能力。Kimi主动搜索得到的多篇资料,会作为上下文的一部分交给模型去推理。正是因为Kimi大模型支持的上下文窗口足够长,窗口内的信息损失足够低,Kimi智能助手才能输�高质量的结果,为用户带来截然不同的搜索体验。因此,本次无损上下文长度上量级的提升,有望帮助用户探索更多的AI应用方式,给用户带来更大的价值。 3.23 阶越星辰 3月23日,阶越星辰发布Step系列通用大模型,包括Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型的预览版,提供API接口给部分合作伙伴试用。阶越星辰的团队的数据团队核心骨干来自必应搜索引擎,曾支持全球100多种语言,为200多个国家和地区提供服务,对全球互联网高质量语料的分布有深入了解,并建立起强大的数据处理和知识图谱流水 请阅读最后一页免责声明及信息披露http://www.cindasc.com3 线。团队自建机房+租用算力,积极进行算力储备,实践单集群万卡以上的系统建设与管理,训练千亿模型的MFU(有效算力输🎧)达57%。目前,基于Step-1和Step-1V千亿参数大模型的产品效率工具跃问和AI开放世界平台冒泡鸭已经全面开放。 3.23 OpenAI 人工智能公司OpenAI计划将其突破性的AI视频生成技术带入电影产业。该公司即将与洛杉矶的制片厂和媒体高管展开会谈,探讨合作机会。OpenAI的Sora服务能根据文本提示生成真实感视频,尽管尚未公开发布,但已在好莱坞引起广泛关注。这一技术的发展和应用,预示着电影制作领域的未来可能将迎来较为明显的变化。 3.18 xAI xAI开源史上最大参数量大语言模型Grok-1。Grok-1是马斯克xAI自2023年7月12日成立以来发布的首个自研大模型,Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,是迄今参数量最大的开源大语言模型,遵照Apache2.0协议开放模型权重和架构。这种MOE架构重点在于提高大模型的训练和推理效率,其基础模型基于大量文本数据训练,未针对特定任务进行微调。xAI从2023年10月开始使用自定义训练堆栈在JAX和Rust之上从头开始训练,模型拥有3140亿参数,其对于每个token,活跃权重比例为25%。此次xAI并未放�Grok-1的具体测试成绩,其与OpenAI即将发布的GPT-5的大模型的比较,值得持续关注。 3.24 SunoAI AI初创公司SunoAI重磅推�了第一款可制作「广播级」的音乐生成模型——V3,仅用几秒的时间,V3便可以创作�2分钟的完整歌曲。Sunov3包含丰富的音乐风格和流派选项,比如古典音乐、爵士乐、Hiphop、电子等新潮曲风。用户只用几个简短的词,用户就可以用任何语言创作一首歌曲。相比与之前的版本,v3生成的音乐质量更高,而且能制作各种各样的风格