您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:计算机行业投资策略周报:国产大模型密集更新,全力追赶GPT-4 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业投资策略周报:国产大模型密集更新,全力追赶GPT-4

信息技术2024-02-03杨烨财通证券嗯***
计算机行业投资策略周报:国产大模型密集更新,全力追赶GPT-4

「模型即应用」期待基座模型的再次“涌现”:经过过去一年学术界和工业界对大模型应用的探索,我们得出了两个关键的经验:1)模型即应用,模型提供的能力和应用的落地成功率是高度耦合的;2)AI应用解决的是纵向的效率问题,而非移动互联网时代横向的新场景。当前,我们亟需一个超大参数模型实现再次“涌现”,以证明通过参数量/数据量的提升、更多的算力的投入,模型能力能够有效突破当前的天花板。与此同时,对新模型的能力评估也是行业面临的另一挑战。我们可以通过1)对比GPT-4的功能完备性、2)一些基准测试分数、3)LMSYS对战榜,去相对综合客观地评价大模型的能力。 「密集更新」国内大模型厂商全力追赶:今年1月以来,国内大模型厂商纷纷对其基座模型进行了更新。我们看到,国产基座模型在过去的一年中已经取得了长足的进步,不仅在整体性能上有所提升,各家厂商还开发出了具有特色的功能。智谱AI发布了新一代基座大模型GLM-4,其API是国内第一个集齐100k+长上下文、Function Calling、System Prompt的商用API,这标志着国产基座大模型的技术水平又上了一个新台阶;MiniMax发布了国内首个千亿参数量以上的MoE大模型;百川智能发布的Baichuan 3在中文任务上表现出色,尤其在中文医疗任务上表现最佳;科大讯飞发布的星火V3.5加入了高拟人度的语音交互能力,并开源了基于全国产化算力平台“飞星一号”的星火开源-13B;万兴科技也发布了天幕多模态大模型及其API,专注于数字创意垂类创作场景的创新和应用;面壁智能发布了端侧大模型MiniCPM,以2B的参数规模在多项测评上超越了微软的Phi-2模型。 投资建议:AI大模型赋能下游应用,C端标准化工具类产品有望率先享受产业红利,建议关注金山办公、万兴科技、美图公司、同花顺、科大讯飞、福昕软件、合合信息(IPO)等。AI硬件创新潮可期,关注边缘端硬件公司传音控股、漫步者、石头科技、九号公司等,以及和芯片厂商合作紧密的赋能型公司如虹软科技、中科创达等,教育垂直领域可能成为落地的先行领域,建议关注佳发教育、鸿合科技等。算力是AI大模型产业化落地的必备环节,建议关注AI服务器相关厂商以及国产AI芯片厂商:海光信息、协创数据、神州数码、浪潮信息、中科曙光、高新发展、优刻得、紫光股份、寒武纪等。 风险提示:AI技术迭代不及预期的风险,商业化落地不及预期的风险,政策支持不及预期风险,全球宏观经济风险。 1「模型即应用」期待基座模型的再次“涌现” 如何理解大模型应用?经过过去一年学术界和工业界对大模型应用的探索,我们得出了两个关键的经验: 1)模型即应用,模型提供的能力和应用的落地成功率是高度耦合的; 2)AI应用解决的是纵向的效率问题,而非移动互联网时代横向的新场景。 因此,能真正落地的AI应用大概率不是靠互联网时代的产品经理凭空想象出来的,因为它们或许只是对已有场景(的少数中间环节)的提效,而能否提升则取决于未来模型能力的供给,也关乎到不同地区/行业的人力成本等因素。 在这之中,对模型能力的判断涉及到对Scaling Law这一最底层假设的判断。事实上,代表行业最先进(SOTA)的基座模型GPT-4已经有一年没有显著进步 了。而在开源社区这边,在LLaMa2开源后,最近3个月在最佳性能的突破上开源模型也近乎停滞。我们亟需一个超大参数模型实现再次“涌现”,以证明通过参数量/数据量的提升、更多的算力的投入,模型能力能够有效突破当前的天花板,为行业和资本市场注入信心,这也是我们需要密切关注GPT-5和Gemini Ultra的最主要原因。 图1.开源模型最高分平均分(左)、各项最高分及人类基准(右) 如何评估大模型的能力?正是因为模型性能对于我们判断应用的能力边界和落地能力至关重要,我们不可避免的需要对模型的能力做出客观可信的评估。但考虑到大模型的下游使用场景广泛,且存在大量开放式问题,如何评估一个大模型的能力是现阶段行业内共同面临的挑战。 对比GPT-4的功能完备性:GPT-4 Turbo(gpt-4-0125-preview)是目前功能最完备的模型,它不仅包括Long context(>=100k)、Function calling(json mode)、System Message(定制化)、多模态(input&output)、Web search、RAG、Assistants API、All-in-one等功能,而且还在不断进行优化和升级。 因此,我们可以通过对比模型与GPT-4Turbo的功能完整度差距,来定性的衡量该模型的能力。 一些基准测试分数:我们在各式模型发布会/论文中或许经常看到例如 MMLU、BIG-bench、MIT-Bench、HellaSwag、GSM8K、HumanEval以及中文的C-Eval等等的基准测试,但它们也很难客观全面的评价一个模型的性能。并且,以MMLU在内的问题样本很多都是Google搜索的首次点击结果,它们是对记忆力的较好测试,而并非智力,因此诸如此类的基准测试分数仅能作为一种参考。 LMSYS对战榜:LMSYS Chatbot Arena(聊天机器人竞技场)是一个以众包方式进行匿名随机对战的基准测试平台。在竞技场中,用户可以与两个匿名模型并排聊天,然后投票选出这两个模型中哪个更好。最后,平台对 LLMs使用国际象棋中广泛使用的Elo评级系统进行排名。目前LMSYS一经推出就受到了行业的较多认可,原因包括其1)排名的动态调整、2)更贴近用户真实需求、3)不容易作弊。但需要指出的是,LMSYS的排名只反映了作为Chatbot文本对话这一个维度的能力。 图2.LMSYS对战榜模型排名 2「密集更新」国内大模型厂商全力追赶 今年1月以来,国内大模型厂商纷纷对其基座模型进行了更新。我们看到,国产基座模型在过去的一年中已经取得了长足的进步,不仅在整体性能上有所提升,各家厂商还开发出了具有特色的功能。智谱AI发布了新一代基座大模型GLM-4,其API是国内第一个集齐100k+长上下文、Function Calling、System Prompt的商用API,这标志着国产基座大模型的技术水平又上了一个新台阶; MiniMax发布了国内首个千亿参数量以上的MoE大模型;百川智能发布的 Baichuan 3在中文任务上表现出色,尤其在中文医疗任务上表现最佳;科大讯飞发布的星火V3.5加入了高拟人度的语音交互能力,并开源了基于全国产化算力平台“飞星一号”的星火开源-13B。万兴科技也发布了天幕多模态大模型及其 API,专注于数字创意垂类创作场景的创新和应用;面壁智能发布了端侧大模型MiniCPM,以2B的参数规模在多项测评上超越了微软的Phi-2模型。 2.1智谱AI:发布GLM-4 智谱AI发布新一代基座大模型GLM-4。1月16日,智谱AI在其技术开放日上推出了新一代基座大模型GLM-4。最新的GLM-4在基础能力上实现了大幅升级,性能相比上一代全面提升60%,支持128k更长上下文、更强的多模态。此外,GLM-4-All Tools和GLMs个性化智能体定制能力也已上线,在产品上持续全面对标OpenAI。GLM-4-All Tools能够根据用户意图,自动理解、规划复杂指令,并自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力以完成复杂任务。值得一提的是,智谱同步开放的GLMs个性化智能体定制对标OpenAI的GPT Store,任何用户只需使用简单的提示词指令,即可创建属于自己的GLM智能体。更值得一提的是,GLM-4的API是国内第一个集齐100k+长上下文、Function Calling、System Prompt的商用API,这标志着国产基座大模型又再上了一个台阶。 图3.智谱AI新一代基座大模型GLM-4性能逼近GPT-4 2.2M iniMax:发布abab6 MiniMax发布了国内首个基于MoE架构的大模型abab6。1月26日,MiniMax全量发布了参数比上一版本abab5.5大一个量级的大语言模型abab6,使其能够更好地从训练语料中学到更精细的规律,完成更复杂的任务。到目前为止, abab6是国内第一个千亿参数量以上的基于MoE架构的大语言模型。在MoE结构下,模型参数被划分为多组“专家”,每次推理时只有一部分专家参与计算,从而提高计算效率。根据公司的模型发布公众号,abab6在三个测试集中均明显优于前一代模型abab5.5。在指令遵从、中文综合能力和英文综合能力上,abab6大幅超过了GPT-3.5。与Claude 2.1相比,abab6在指令遵从、中文综合能力和英文综合能力上也有一定优势。相较于Mistral的商用版本Mistral-Medium,abab6在指令遵从和中文综合能力上优于Mistral-Medium,而在英文综合能力上与Mistral-Medium相当。 图4.MiniMax最新发布的abab6测评及对比结果 2.3百川智能:发布Baichuan3 百川智能发布了超千亿参数的大语言模型Baichuan 3。1月29日,百川智能发布了其最新大语言模型Baichuan3。Baichuan 3在多个英文评测中表现出色,达到接近GPT-4的水平。而在CMMLU、GAOKAO等多个中文评测榜单上,更是超越GPT-4展现了其在中文任务上的优势。此外,在对逻辑推理能力及专业性要求极高的MCMLE、MedExam、CMExam等权威医疗评测中,Baichuan 3的中文效果也超过了GPT-4,成为中文医疗任务表现最佳的大模型。在数据质量方面,百川智能设计了一套基于因果采样的动态训练数据选择方案,该方案能够在模型训练过程中动态地选择训练数据,极大地提升了数据质量。在模型训练上,百川智能提出了“重要度保持”(Salience-Consistency)的渐进式初始化方法,用以保证模型训练初期的稳定性。在训练效率方面,百川智能针对超千亿参数模型的并行训练问题进行了一系列优化,使得Baichuan 3的训练框架在性能方面相比业界主流框架提升超过30%。 图5.百川智能最新发布的Baichuan3测评及对比结果 2.4科大讯飞:发布讯飞星火V3.5 科大讯飞星火大模型迎来重大升级。1月30日,科大讯飞发布基于首个全国产算力训练的讯飞星火V3.5。星火认知大模型V3.5实现了七大能力的全面提升,包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力。其中,语言理解和数学能力已经超过GPT-4 Turbo,代码能力达到GPT-4 Turbo的96%,多模态理解达到GPT-4V的91%。科大讯飞同时发布了星火语音大模型,首批40个语种的拟人度超过83%。此外,公司还开源了基于全国产化算力平台“飞星一号”的开源大模型——星火开源-13B。本次开源包含了130亿稠密参数(13B),包括基础模型iFlytekSpark-13B-base、精调模型iFlytekSpark-13B-chat,以及微调工具iFlytekSpark-13B-Lora和定制工具iFlytekSpark-13B-Charater。学术和企业研究可以基于全栈自主可控的星火优化套件,更便利地训练自己的专用大模型。 图6.科大讯飞发布基于首个全国产算力训练的讯飞星火V3.5 2.5万兴科技:发布天幕大模型 万兴科技天幕大模型正式发布。1月30日,“湘约AI大有可为——多媒体大模型创新应用高峰论坛暨发布签约仪式”上,万兴天幕大模型正式发布。“天幕”聚焦数字创意垂类创作场景,基于15亿创作者及100亿本土化高质量音视频数据沉淀,以音视频生成式AI技术为基础,具有“多媒体”、“垂直解决方案”以及“本土化数据”三大特点,全链条赋能全球创作者,让大模型应用落地更有针对性、更具实效。当前,“天幕”大模型已迭代近百项音视频原子能力,并现场重点展示了包括文生主题视频、文生3D视