您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:阶跃星辰发布万亿参数MoE模型,大模型混战进入新阶段 - 发现报告
当前位置:首页/行业研究/报告详情/

阶跃星辰发布万亿参数MoE模型,大模型混战进入新阶段

信息技术2024-03-23浦俊懿、陈超东方证券G***
阶跃星辰发布万亿参数MoE模型,大模型混战进入新阶段

行业研究|动态跟踪 看好(维持) 阶跃星辰发布万亿参数MoE模型,大模型混战进入新阶段 计算机行业 国家/地区中国 行业计算机行业 报告发布日期2024年03月23日 核心观点 3月23日,阶跃星辰发布了Step-2万亿参数MoE语言大模型预览版。Step-2模型采用了MoE架构,聚焦深度智能的探索,并提供API接口给部分合作伙伴试用。 训练万亿参数模型体现了阶跃星辰的核心技术能力,也表明阶跃星辰在通用人工智能领域追赶OpenAI的实力和决心。 模型规模提升到万亿对算力、系统、数据和算法都提出了新要求。在过去的一年,一些国内领先的大模型基本达到了GPT-3.5的水平,业内也开始不断向着GPT-4的 能力去突破。但GPT-3.5只是一个千亿参数的模型,要达到GPT-4的万亿规模参数,各个维度的要求都上了一个台阶,对算力、系统、数据和算法四大要素都有着极高要求。根据阶跃星辰数据,至少需要等效A800万卡单一集群,高效稳定的训练,十万亿tokens高质量的数据,加上驾驭新颖的MoE架构,任何一环出现短板,就很难将模型ScaleUp至万亿参数。阶跃星辰具备打造万亿参数模型的坚实基础,经过一年沉淀,才能实现万亿级参数模型的成功。 阶跃星辰的Step系列模型已经开放试用。截至目前,阶跃星辰已经推出了Step-1 千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型的预览版。Step系列模型在图像理解、多轮指令跟随、数学能力、逻辑推理、文本创作等方面性能达到业界领先水平。基于Step系列模型,阶跃星辰推出了名为“跃问”的聊天机器人平台和“冒泡鸭”AI智能体平台,目前均可免费试 用,用户可以自由和机器人聊天,也可以自己定制个性化的智能体。 浦俊懿021-63325888*6106 pujunyi@orientsec.com.cn 执业证书编号:S0860514050004 陈超021-63325888*3144 chenchao3@orientsec.com.cn 执业证书编号:S0860521050002 覃俊宁qinjunning@orientsec.com.cn 宋鑫宇songxinyu@orientsec.com.cn 大模型领域竞争日益激烈,长文本和多模态技术是重点。近期随着月之暗面Kimi模型的热度高涨,大模型领域竞争又重新激烈起来,进入了“卷”长文本的阶段。而 多模态模型可能是下一个新战场。多模理解和生成的统一是通往AGI的必经之路,当前正处于多种模态走向融合的阶段,无论是语言、视觉还是声音,现在都可以映射到同一个空间加以表征。在未来阶段,有了理解和生成的统一,就可以进一步和具身智能结合起来,形成一个世界模型。再进一步,在世界模型的基础上加入复杂任务的规划能力和抽象概念的归纳能力,就真正演化到了AGI的阶段。 AI应用落地的曙光初现,算力需求预计将持续提升。长文本、多模态等技术可以通过提供更多上下文信息、视觉信息等,来辅助模型进一步减少歧义,并且基于所提 供事实基础上的归纳、推理也更加准确,进一步推进AI产业的应用落地。同时,上下文长度的提升和多模态信息的加入必然会带来算力消耗的提升,即使在业界不断优化的情况下,对于算力的需求仍会有较大程度的增长。我们认为,随着各大模型厂商对于模型能力的“内卷”进入新阶段,对AI算力的需求将会进一步提升。 投资建议与投资标的 我们认为,近期大模型领域进展突破不断,有望加速AI相关应用落地,同时对于算力的需求也会随之大幅提升。 AI应用:建议关注金山办公(688111,增持)、新致软件(688590,未评级)、科大讯 飞(002230,买入)、同花顺(300033,未评级)、彩讯股份(300634,未评级)、上海钢联(300226,增持)等公司 AI算力:建议关注云赛智联(600602,未评级)、中科曙光(603019,买入)、海光信 息(688041,买入)、寒武纪-U(688256,未评级)、润泽科技(300442,未评级)、华铁应急(603300,买入)等公司 其他工具:星环科技-U(688031,未评级) 风险提示 技术落地不及预期;政策监管风险 Kimi支持200万字上下文,AI应用有望加速落地 2024-03-22 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 阶跃星辰发布万亿参数MoE语言大模型Step-24 大模型混战进入新阶段,AI应用和算力空间广阔6 投资建议与投资标的7 风险提示7 图表目录 图1:阶跃星辰发布万亿参数MoE大模型Step-2预览版4 图2:模型ScaleUp的四要素4 图3:Step-1V模型可以理解图像5 图4:Step-1V模型支持长文本理解5 图5:冒泡鸭平台网页版界面5 图6:冒泡鸭可以发现多种用户定制智能体5 图7:通往AGI的路径方向6 阶跃星辰发布万亿参数MoE语言大模型Step-2 阶跃星辰发布万亿参数MoE语言大模型Step-2。3月23日的2024全球开发者先锋大会上,通用大模型创业公司阶跃星辰正式对外亮相。阶跃星辰创始人、CEO姜大昕博士在大会上正式对外发布了Step-2万亿参数MoE语言大模型预览版。模型采用MoE架构,聚焦深度智能的探索,并提供API接口给部分合作伙伴试用。训练万亿参数模型体现了阶跃星辰的核心技术能力,也表明阶跃星辰在通用人工智能领域追赶OpenAI的实力和决心。 图1:阶跃星辰发布万亿参数MoE大模型Step-2预览版 数据来源:阶跃星辰,东方证券研究所 阶跃星辰的核心团队来自微软,技术实力深厚。阶跃星辰成立于2023年4月,创始人是姜大昕博士,曾在微软工作长达16年,主攻研究搜索、NLP等智能算法。公司的数据团队核心骨干大部分来自必应搜索引擎,曾支持全球100多种语言,为200多个国家和地区提供服务。 对模型进行ScaleUp并非易事,要做好四方面准备。在过去的一年,一些国内领先的大模型基本达到了GPT-3.5的水平,业内也开始不断向着GPT-4的能力去突破。但GPT-3.5只是一个千亿参数的模型,要达到GPT-4的万亿规模参数,各个维度的要求都上了一个台阶,对算力、系统、数据和算法四大要素都有着极高要求。根据阶跃星辰数据,至少需要等效A800万卡单一集群,高效稳定的训练,十万亿tokens高质量的数据,加上驾驭新颖的MoE架构,任何一环出现短板,就很难将模型ScaleUp至万亿参数。 图2:模型ScaleUp的四要素 数据来源:阶跃星辰,东方证券研究所绘制 阶跃星辰具备打造万亿参数模型的坚实基础。公司通过自建机房+租用算力,积极进行算力储备;核心团队曾实践过单集群万卡以上的系统建设与管理。训练千亿模型的MFU(有效算力输出)达57%;数据团队对全球互联网高质量语料的分布有深入了解,并建立起强大的数据处理和知识图谱流水线;团队不仅能驾驭各种架构,比如万亿参数的MoE架构,并且对大模型的认知以及发展路线有深刻洞察。综合了多方面的准备和一年的沉淀,阶跃星辰才能在2024年实现了模型的“阶跃”。 阶跃星辰的Step系列模型已经开放试用。截至目前,阶跃星辰已经推出了Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型的预览版,提供API接口给部分合作伙伴试用。Step系列模型在图像理解、多轮指令跟随、数学能力、逻辑推理、文本创作等方面性能达到业界领先水平。根据官网链接,阶跃星辰提供了名为“跃问”的聊 天机器人平台,基于Step-1V多模态模型,用户可以直接体验模型能力。比如输入一张电影的截图,跃问就可以对图片内容进行描述,并能够知道是哪一部电影。但是目前Step-1V还只能理解语音、图像等多模态信息,无法实现生成图像。 图3:Step-1V模型可以理解图像图4:Step-1V模型支持长文本理解 数据来源:阶跃星辰,东方证券研究所数据来源:阶跃星辰,东方证券研究所 阶跃星辰还提供了聊天陪伴智能体平台,支持自由创建不同风格的智能体。冒泡鸭是由阶跃星辰推出的免费AI聊天智能体平台,基于Step系列模型,能够理解和回应用户提问,旨在为用户提供智能、互动性强的伙伴。目前冒泡鸭有网页版和移动端App两种方式可以使用。用户可以自由根据自己的喜好定制智能体的外观、声音和对话风格,智能体可以通过流畅的对话以及接近真人 的AI语音输出来模拟人类交流方式,提供自然真实的对话体验。通过冒泡鸭平台也可以发现别的用户创建的优质智能体,直接开启交流。 图5:冒泡鸭平台网页版界面图6:冒泡鸭可以发现多种用户定制智能体 数据来源:冒泡鸭,东方证券研究所数据来源:冒泡鸭,东方证券研究所 大模型混战进入新阶段,AI应用和算力空间广阔 大模型领域竞争日益激烈,长文本技术是当下关注重点。近期随着月之暗面Kimi模型的热度高涨,大模型领域竞争又重新激烈起来,进入了“卷”长文本的阶段。就在Kimi宣布支持200万字上下文长度后不久,阿里宣布旗下的通义千问向所有人免费开放1000万字的长文档处理功能,成为全球文档处理容量第一的AI应用。360旗下的360智脑也开启了500万字长文本处理功能内测,即将上线360AI浏览器。 多模态模型可能是下一个新战场。多模理解和生成的统一是通往AGI的必经之路,当前正处于多种模态走向融合的阶段,无论是语言、视觉还是声音,现在都可以映射到同一个空间加以表征。但是仍然存在一个问题——理解模型和生成模型是分开发展的。其造成的结果就是理解模型的理 解能力强而生成能力弱(比如GPT-4V),或者生成模型的生成能力强但理解能力弱(比如Sora)。而真正的AGI必然需要做到理解和生成能力都足够强。在未来阶段,有了理解和生成的统一,就可以进一步和具身智能结合起来,形成一个世界模型。再进一步,在世界模型的基础上加入复杂任务的规划能力和抽象概念的归纳能力,就真正演化到了AGI的阶段。目前OpenAI就是一直在沿着这样的一条主线、两条支线推进它的AGI计划。 图7:通往AGI的路径方向 数据来源:阶跃星辰,东方证券研究所 AI应用落地的曙光初现,算力需求预计将持续提升。目前业界已经逐步形成共识,即使是千亿参数的大模型也无法完全避免幻觉和胡说八道的问题。长文本、多模态等技术可以通过提供更多上 下文信息、视觉信息等,来辅助模型进一步减少歧义,并且基于所提供事实基础上的归纳、推理 也更加准确,进一步推进AI产业的应用落地。同时,上下文长度的提升和多模态信息的加入必然会带来算力消耗的提升,即使在业界不断优化的情况下,对于算力的需求仍会有较大程度的增长。我们认为,随着各大模型厂商对于模型能力的“内卷”进入新阶段,对AI算力的需求将会进一步提升。 投资建议与投资标的 我们认为,大模型上下文长度持续拓展有望加速AI相关应用落地,同时对于算力的需求也会随之大幅提升。 AI应用:建议关注金山办公(688111,增持)、新致软件(688590,未评级)、科大讯飞(002230,买入)、同花顺(300033,未评级)、彩讯股份(300634,未评级)、上海钢联(300226,增持)等公司 AI算力:建议关注云赛智联(600602,未评级)、中科曙光(603019,买入)、海光信息(688041,买入)、寒武纪-U(688256,未评级)、润泽科技(300442,未评级)、华铁应急(603300,买入)等公司 其他工具:星环科技-U(688031,未评级) 风险提示 技术落地不及预期。AI应用落地需要大模型、深度学习、长文本等多种人工智能技术赋能,以完成特定场景下的任务。若未来相关长文本、多模态等技术演进速度不及预期,将影响模型应用商业化落地的节奏。 政策监管风险。目前有关于AIGC创作内容的版权及监管等方面的政策尚未明确,若未来相关