您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:2023国内第三方AI大模型厂商及腾讯字节百度阿里大模型开发应用进程分析报告 - 发现报告

2023国内第三方AI大模型厂商及腾讯字节百度阿里大模型开发应用进程分析报告

2024-01-15-未知机构向***
2023国内第三方AI大模型厂商及腾讯字节百度阿里大模型开发应用进程分析报告

目录 大模型的竞争格局演绎的关键因素01 互联网大厂的模型和应用进展—腾讯、字节、百度、阿里03 大模型技术本质上来源于科研创新与技术积累 •海外大厂核心大模型的能力迁移是国内AI发展的重要考量。考察是否有海外大厂核心大模型研发的技术积累和知识迁移到国内,以及这些技术在本土的应用情况和调整,对理解国内外AI技术的差异和互动具有重要意义。•国内企业大模型技术路线有两类:①自研效果复现类:参考GPT论文自研复现效果,前期耗时、后续Finetuning对于数据数量质量也有一定要求,能力天花板高;②基于开源迭代类:训练更顺畅但天花板低,依赖开源社区,且开源模型如Llama2比较GPT3.5还是有差距。•国内企业大模型团队发展路径有两类:①从搜广推背景转向大模型研发,如百度和百川;②成立之初主要基于大模型研究路线和学术背景,如月之暗面的杨植麟团队和清华的智谱团队。 资料来源:Sergi Castella i Sapé,《Must read: the 100 most cited AIpapers in 2022》,Zeta Alpha,2023年3月2日,国信证券经济研究所整理 基于开源大模型框架进行优化调整、应用创新较易落地 •OpenAI的核心能力主要体现在三个方面:1)数据收集和处理的能力,包括数据来源,清洗方式,数据结构等;2)模型结构,包括注意力、隐藏层等设计;3)训练方法,包括各类超参数,学习率等。海外大模型开源后,我国大模型企业可在其框架上进行优化调整,以百川智能为例: Ø基于开源模型提升性能:据GitHub,百川智能通过对LLaMA框架进行修改以提升训练时的吞吐。此外,在LLaMA较为薄弱的中文语料方面,百川智能采用2000万条以中英为主的多语言语料训练分词模型,显著提高中文的压缩率。 Ø大模型+搜索增强解决方案服务B端场景:百川智能通过借助搜索增强,解决大模型在幻觉和时效性问题,提升了模型的可用性,并拓展了应用领域,如金融、政务、司法、教育等行业的智能客服、知识问答、合规风控、营销顾问等。 高质量训练数据促进大模型技术的提升,但优质数据集稀缺 •有效数据集有限,优质数据集仍旧稀缺。当前开源榜单公开训练数量级,现有常见的大模型训练数据集往往在几十到几百B的量级,优质的数据集可能就只有300-500B token,进化到多模态数据量有所增加,但总量也不多。有的模型会用万亿级别的数据token训练,但很多数据其实是无效的。 •大模型的未来发展依赖于训练数据集的质量,而非仅仅是数量。根据Scaling Law,Transformer架构的语言模型性能在很大程度上取决于模型大小、数据集大小和训练计算量,性能与这三个因素之间存在幂律关系,且趋势跨越多个数量级,而对其他架构细节(如网络深度或宽度)的依赖相对较小。未来的大模型可能会经历增长飞轮效应,但关键在于训练数据集的质量。这强调了选择和使用高质量数据的重要性,而不仅仅是追求数量。单纯的用户数据上不一定会产生飞轮效应,比如某些用户数据目前只具备统计学的能力,能够发现逻辑、数学的问题还需要找逻辑、数学数据集去优化。 资料来源:OpenAI官网,国信证券经济研究所整理 AI技术将更大范围的数据带入分析领域,关注稀缺内容平台 •AI技术把原先难以利用的非结构数据(占比80%)带入分析领域。AI浪潮下数据资产的重要性凸显,Snowflake在财报会提到AI技术把原来客户无法利用的非结构化数据带入分析领域构成新的增量。一系列数据公司与产品受益,包括云数据仓库领域(Snowflake)、非结构化/向量数据库(MangoDB、Pinecone)、云数据监控(DataDog)和 ML/AI Ops 领域(Databricks、AWS Bedrock、Weights&Biases)。 •内容创作者所聚集的平台,如字节和腾讯视频号成为高质量数据的重要来源。 随着内容创作者转向音视频平台,这些平台成为了聚集高质量数据的热点,如字节跳动和腾讯视频号等平台。部分观点类数据可能具有一定时效性,如百度问答和知乎等平台上的数据。 大模型的竞争格局猜想—C端集中,B端差异化竞争 •C端:通用的大模型技术底座不会太多,可能只会有一个大一统的入口,通过丰富的插件、定制化功能、AI Agent满足用户的高度定制化和长尾需求。从大模型的迭代发展,我们看到底层技术基于Transformer架构的统一化。随着模型能力的增强,与硬件终端协同可能加剧流量入口的集成和统一。 •B端:不同行业具有各自垂类模型,不同大小的模型适用于不同场景。由于企业场景、业务流程差异化,不同的领域模型功能、数据集、模型大小和性能都有较大差别,定制化模型厂商或小模型性价比更高。目前出现很多竞争厂商在B端发力,比如Cohere、或者在Huggingface上用开源模型改造。 资料来源:Wayne Xin Zhao、Kun Zhou等, 《A Survey of Large Language Models》,Computation and Language,2023,arXiv:2303.18223,国信证券经济研究所整理 资料来源:Karl Keirstead等,《AI Survey of Enterprise Execs–Shaping the AI NarrativeInto 2024》,U.S.Software,2023,国信证券经济研究所整理8 OpenAI商业模式:大模型技术领先,积极尝试构建生态壁垒 •通过先进的闭源实现商业化,通过开源前代模型构建生态:OpenAI的GPT技术路线是当前模型自研商家优先选择并跟随的技术方向,而OpenAI凭借大模型的领先优势,后续更新到GPT5后,有可能将前代GPT3.5开源,通过更新一代、开源一代来实现自身战略。领先模型闭源、服务B端客户实现商业化,落后模型开源繁荣GPT生态与应用建设。•通过AI Agent的形态去构建流量入口:OpenAI在AI Agent与流量入口领域有许多尝试,比如插件生态、GPTs。GPTs出现打破过去的软件孤岛、复杂、不能满足长尾需求的缺点,创建过程工具化标准化而且创建成果产品化。但是AI Agent必须要对个人有全链路的信息处理能力,当前GPTs实际上对个人信息的创建和积累是分裂的,比如单人创建不同的GPTs,其实它们之间互不相连,导致可能会产生训练和数据的浪费。 图11:OpenAI模型演进图 AI Agent:成为生产环节的定制化辅助,带来人机交互的革新 •AI Agent框架为大模型提供结构化思考方法,成为生产环节的重要辅助:大模型作为理解推理能力不断增强,软件生产进入低门槛、高定制化时代,面向用户的长尾、个性化需求,Agent框架可以打造每个知识工作者的AI助理。 •AIAgent需要标准定义和模型能力进化,同时Generative UI可能带来人机交互方式的革新:当前大模型对连续的复杂推理问题包括对多模态信息的交叉处理仍有不足,需要用更复杂、结构化、多维度的数据来进一步学习。另一方面,Agent应用对当前的人机交互方式带来改变,演进成为同时适用于人类和AI操作的形式。 •案例:Agent以类人的方式与智能手机应用进行交互,使用点击和滑动等底层操作来操作图形用户界面(GUI)。利用大型语言模型的视觉能力以类似人类的方式操作智能手机应用程序。在探索阶段,智能体与智能手机应用程序交互并从结果中学习,以创建一个全面的参考文档。在部署阶段,智能体利用这个文档汇编的信息来有效操作和导航应用程序。 资料来源:Chi Zhang,Zhao Yang等,《AppAgent: Multimodal Agents as Smartphone Users》,Computer Vision and Pattern Recognition(cs.CV),2023,arXiv:2312.13771,国信证券经济研究所整理 资料来源:Chi Zhang,Zhao Yang等,《AppAgent: Multimodal Agents as Smartphone Users》,Computer Vision and Pattern Recognition(cs.CV),2023,arXiv:2312.13771,国信证券经济研究所整理10 智能硬件“All in One”终端流量入口的抢占之路 •AIGC将带来无限的内容生产与供给,进而颠覆当前的信息分发方式:a16z曾说过“芯片将计算的边际成本降到了零,互联网将分发的边际成本降到了零,现在AIGC实际上将创作的边际成本降到零”。每个人都有机会获得无限的娱乐内容供给,互联网常见的信息分发方式未来可能都面临重组。人会从主动生产和管理信息,进化到与AI共同生产以及与AI辅助管控共存。 •智能终端充当人类和AI认知世界的延伸,依托大模型同时满足生产力、社交娱乐等全面需求。相比软件产品智能硬件终端更容易演化到all in one的形态,从而抢占终端的流量入口。从苹果生态来看,智能终端的壁垒同时取决于生态业务场景的广度和深度,而AI大模型的技术同时带来两个维度的革新。 资料来源:公司官网、国信证券经济研究所整理 资料来源:公司官网、国信证券经济研究所整理 资料来源:公司官网、国信证券经济研究所整理 目录 大模型的竞争格局演绎的关键因素01 互联网大厂的模型和应用进展—腾讯、字节、百度、阿里03 独立的模型团队—月之暗面、清华GLM、百川智能 月之暗面:清华系新星杨植麟领衔,团队核心人员多为清华同门 •月之暗面(Moonshot AI)创始人杨植麟自2020年起便坚信“大模型是未来”,2020年下半年为华为的盘古大模型做核心技术研发,2021年参与智源研究院的悟道大模型研发。2022年底杨植麟前往美国进行为期2个月的考察,美国民众对于GPT的狂热让他更坚信此时正是成立大模型公司的合适时机,于是他在接下来的1个月内完成首轮融资,拿到来自红杉等头部机构6000万美元的启动资金,并于3个月内组建起了大约40人的技术研发团队。 •Moonshot AI于2023年3月成立,成立前其团队主要通过与其他公司合作,以团队提供技术、合作方提供算力的形式来完成大模型相关工作。创始团队核心成员参与了 Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发,多项核心技术被GooglePaLM、Meta LLaMa、Stable Diffusion等主流产品采用。 2023年首次发布大模型产品Kimi Chat,长文本能力为核心能力 •基于千亿大模型的智能助手Kimi Chat,核心能力为长文本能力(Long Context):2023年10月9日,Moonshot AI推出首款产品,拥有长达20万汉字的上下文处理能力,据Moonshot AI官方,这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度。此外,Kimi Chat还可处理多种文档格式(如PDF、Excel等),具备较强的多语言能力,以及调用搜索引擎获取信息,旨在为用户提供强大、智能的对话伙伴,并为其工作、学习、生活提供助力。 模型版本经历两次更新,在多个场景下持续优化模型效果 •Kimi Chat更新历程: Ø2023年11月15日,Kimi ChatV1.1 面向全社会开放版本,模型版本更新至moonshot-v1-20231115,主要更新内容包括(1)大幅解决模型在复杂场景下输出重复的问题;(2)关闭页面不再导致模型回复停止,同一对话下,各终端同步输出内容; Ø2023年12月25日,Kimi Chat模型版本更新至moonshot-v1-20231225,主要更新包括(1)内容生成长度提升(2)优化首字回复速度(3)实现从扫描件(文档、合同、白板等)提取文字的功能,目前已支持扫描文件以PDF格式上传解析(4)微信小程序端上线“Kimi智能助手” 资料来