您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[甲子光年]:2024人工智能开源大模型生态体系研究 - 发现报告
当前位置:首页/行业研究/报告详情/

2024人工智能开源大模型生态体系研究

信息技术2024-06-21努尔麦麦提·买合木提甲子光年机构上传
2024人工智能开源大模型生态体系研究

出品机构:甲子光年智库研究指导:宋涛报告撰写:努尔麦麦提·买合木提(小麦)发布时间:2024.06(初版)更新时间:2024年6月2024人工智能开源大模型生态研究开源为先场景突破 CONTENTS目录发展人工智能产业的重要性与新机遇Part 01Part 02人工智能大模型的开源生态体系分析Part 03人工智能开源大模型的创投情况分析Part 04开源大模型生态建设的成功经验与典型案例Part 05人工智能大模型典型商业化案例及未来展望 1.1 人工智能发展进入应用落地阶段人工智能技术经历70年的发展已经进入成熟期,即将进入大规模应用落地阶段人工智能即将进入大规模应用落地阶段情感伦理AI能力时间逻辑推理机器学习深度学习Transformer感知认知决策学习执行社会协作神经网络19561974198019871995201320202021202220232025GPT-3分解为五大学科GPT-4?ChatGPT2030智能路灯车辆识别智能停车管理智能交管车辆路网智慧交通人脸识别语音识别自然语言处理生物识别电力巡检辅助诊断与筛查智能理赔智能保顾风险评估智慧金融反欺诈智能投顾数字人AIGC协作机器人智能质检智能供应链实时监控与操控智能工厂智能制造智能诊断用药提醒智智能导诊医疗知识库药物研发智慧医疗智慧工地智能调度智能勘测与开发碳资产管理智慧电网智慧能源仿真测试三维重建点云处理高级辅助驾驶视觉感知自动驾驶车路协同蛋白质结构预测天文发现高分子材料研发气象预报农作物监测智慧科研逻辑推理为主,聚焦决策、认知能力以概率统计的建模、学习和计算为主,聚焦感知、认知、决策聚焦学习环节,大模型聚焦执行与社会协作环节产生情感? 1.2 数据、算力、算法作为人工智能发展的核心三要素已经具备基础条件人工智能(A)的快速发展依赖于三个核心要素:数据,算法,算力。这个观点已经得到了业界的高度认可。只有这三个要素同时满足了才能加速人工智能的大发展。随着人工智能大模型规模变大以及普及应用,人工智能对能源的需求也在不断加大,逐渐成为人工智能发展关键因素之一。人工智能三要素:数据(data)、算法(algorithm)和算力(computing power);人工智能核心三要素:数据、算力、算法基础设施基础架构CPUGPUFPGATPUBPUNPUK8SOpenStackKubeFlowPaddle EDLHadoop Spark算力存储HDFSMySQLHBaseMongoDB数据获取ScrapyBlockChain处理PandasKettleHive管理zookeeperMatplotib格式TFRecordImdbRecordIO训练框架KerasTensorFlowTheanoCaffe2PyTorch工具TensorBoardTensorflow-Slim算法模型方法DNNCNNRNNRBNLSTMRLVGGRestNetDeep Speech模型训练训练、微调......工业应用金融医疗商业电商交通安防通信大量高性能硬件组成的计算能力(几千个GPU组成的计算机群)现在AI算力需求最密集的地方是训练,但是AI价值最高的地方是推理,而不是训练。 1.3 大数据+大算力+通用大模型成为新的发展范式大数据+大算力+通用大模型成为新的发展范式,将推动AI能力提升逼近通用人工智能AI能力进化曲线AI综合能力时间感知逻辑推理为主认知决策学习执行社会协作情感伦理20131956202020232030?大数据+小算力+专用范式大数据+大算力+通用范式持续进化,AI综合能力逼近临界点 1.4 人工智能将推动人类文明生产力跃迁和生产效率的飞跃AI2.0时代将开启社会生产力新变革,首先体现在对于人类生产效率的颠覆式提升。人类文明演进依次走过了原始时代、农业时代、工业时代、信息时代、数字时代,到今天的数智时代,每个时代的代表性生产工具都不同。所有生产工具反映的都是生产效率的提升能力。数字时代的云、网、端、芯、链等数字工具,除了体力效率的提升之外,还有脑力效率的辅助作用,ChatGPT所代表的AIGC工具的出现,标志着人类生产效率出现了第二次脑力效率飞跃,是新一轮生产力的跃迁,真正实现从体力效率提升向脑力效率提升的转变,这将推动人类社会发生深远变革,其意义不亚于新时代的蒸汽机。工智能智能将推动人类文明生产力的跃迁,标志着人类生产效率出现了第二次脑力效率飞跃原始时代农业时代工业时代信息时代数字时代数智时代石器农具+牛机械PC/软件云、网、端、芯、链人工智能生产效率的提升脑力生产效率的二次飞跃内容再加工者脑力创意脑力辅助体力脑力生产效率的提升内容生产者体力生产效率的提升体力输出者社会生产效率提升与人类文明进化历程AIGC 1.5 人工智能进入时代拐点,大模型开源生态成为推动AI产业发展的重要模式开源大模型是指基于开源软件模式,由全球开发者共同参与、共同维护、共同发展的机器学习模型。开源大模型的特点是开放性、共享性和可扩展性,这使得开源大模型在全球范围内得到了广泛的应用和推广。目前,开源大模型已经成为全球人工智能领域的重要发展趋势。模型开源生态不仅加速了人工智能技术的创新,而且推动了其在各个行业的广泛应用。通过开源大模型,企业能够更快地实现任务部署和技术落地,这对于人工智能产业的发展起到了关键作用。随着更多的开源大模型案例和应用的发布,我们可以预见人工智能将在未来的经济社会发展中扮演更加重要的角色。大模型开源生态成为推动人工智能产业从技术走向应用的重要模式开源生态的加速形成是大模型时代“安卓时刻”的来临开源大模型应用:垂直场景平台:模型部署•开源系统的优势在于影响力的迅速扩散,加快垂直场景应用;•开源生态参与者、开发者众多,反应速度快,商业化探索更具潜力;•大模型开源,有助于企业/开发者加快实现任务部署和技术落地应用,促进产业发展成熟与生态形成。 CONTENTS目录Part 01发展人工智能产业的重要性与新机遇人工智能大模型的开源生态体系分析Part 02Part 03人工智能开源大模型的创投情况分析Part 04开源大模型生态建设的成功经验与典型案例Part 05人工智能开源大模型典型商业化案例及未来展望 2.1 人工智能技术架构的演变与新趋势第一阶段AI以逻辑推理为主,AI能力主要聚焦决策和认知;第二阶段AI注重概率统计的建模、学习和计算,AI能力开始聚焦感知、认知和决策;第三阶段AI聚焦学习环节,注重大模型的建设,AI能力覆盖学习和执行;第四阶段则聚焦执行与社会协作环节,开始注重人机交互协作,注重人类对人工智能的反馈训练。当下正处于第四阶段,这一阶段从2020年开始,代表性事件是GPT-3的发布,突破了以往模型在自然语言处理领域的限制,为语言模型的进一步发展提供了强有力的基础,也为实现智能化的语言交互和人机对话打开了全新的可能性,是人工智能发展的一个关键节点。人工智能技术进化出七大核心能力,实现从“解放四肢”到“解放大脑”的升级不同时期AI侧重能力进化路线逻辑推理为主,聚焦决策,认知能力以概率统计的建模、学习和计算为主,聚焦感知、认知、决策AI能力时间感知认知决策学习执行社会协作情感伦理计算机视觉认知科学机器人学自然语言理解机器学习?19561974198019871995201320202021202220232025E聚焦学习环节,大模型聚焦执行与社会协作环节产生情感?TransformerGPT-3ChatGPTGPT-4深度学习逻辑推理机器学习神经网络 2.2 基于新一代人工智能开源技术架构的大模型开源生态体系基础设施、大模型、行业应用构成大模型开源生态体系基础设施大模型行业应用芯片云平台数据通用大模型专用大模型金融教育医疗文娱编程 2.3 大模型开源生态体系的创新主体与创新机制开源是大模型未来,开源生态体系持续演进开源大模型是基于开源软件模式,由全球开发者共同参与、共同维护、共同发展的机器学习模型。开源由开源规则、开源对象、开源基础设施、参与主体组成。是参与主体在基础设施之上针对对象在遵循一定规则下的一种开放式协作模式,其目的是为了能产生公开复用的产出物。开源的优势,在于降低商业软件采购成本、增强可定制性、保障软件高质量更新、维持技术创新等。 通过Github等平台发布建设自有平台baichuan-7B大模型已在Hugging Face、Github以及Model Scope平台发布ChatGLM开源大模型在Hugging face、GitHub发布 天工Skywork-13B系列模型在GitHub开源技术流派➢Decoder-only 、encoder-decoder为主流架构➢LLaMa系列单卡版本成为社区热点 所用数据➢ 基于Chatbot生成的问答数据集➢ 合规高质量数据集魔搭社区提供最新最热、开放开源的多领域预训练模型和优质数据集千帆大模型平台不仅提供了包括文心一言底层模型和第三方开源大模型,还提供了各种AI开发工具和整套开发环境腾讯云TI平台接入LLama2、Falcon等超20个主流模型,支持大模型直接部署调用且可全程低代码操作 2.4.1 中国大模型开源生态体系的竞争格局大模型开源生态体系由算力层、基础层、平台层、应用层、安全层构成基础层平台层应用层安全层GPT-JBERTLlamaQwenERNIE 1.0Pangu AlphaBGECPM-BeePythiaDistil-WhisperMPTClaireGPT4AllGPT-1GPT-2MOSSQwenvacuna ERNIE 1.0Pangu AlphaAgentLMAquilaCodeLLaMA-2-7B-32KOpenLLaMA 13BbaichuanSkywork-13BSQLCoderDistil-WhisperColossal-chatLightGPTBERTLlamaERNIE 1.0E5-Large-v2BERTLlamaLightGPTERNIE 1.0Pangu AlphaQwenGTE YiChatGLMFalconStarCoderMPT-30GPT-NeoDollyXGenStable Diffusion XLStableCodeBloomLMBGEXVERSE算力层Yuan 2.0GPU算力云算力算力大模型开源生态体系 2.4.2 中国大模型开源生态体系代表性厂商——华为鹏程·盘古——大规模自回归中文预训练语言模型鹏程·盘古模型是全球首个全开源2000亿参数的自回归中文预训练语言大模型,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出。模型参数数量/亿层数内层维度FFN大小头数鹏程·盘古2.6B263225601024032鹏程·盘古13B1314051202048040鹏程·盘古200B2070641638465536128数据集基础模型应用层模型压缩框架移植可持续学习➢26亿盘古模型动态剪枝➢盘古大模型联邦剪枝探索➢模型文件迁移、模型代码对齐、并行训练实现➢ 提示微调➢持续学习pipeline基于模型的数据评估(鹏程·盘古350M)原始数据清洗公开数据集百科数据电子书Common Crawl网页数据新闻数据垃圾文本过滤文本去重训练数据集人工评估增加/修改清洗规则改进模型增加/修改清洗规则改进模型大数据管理平台鹏程·盘古模型的规模和参数鹏程·盘古模型中文语料数据组成数据来源大小(GB)数据源数据处理步骤开放数据集27.915 个开放数据集,如DuReader、BaiDuQA、CAIL2018、Sogou-CA 等数据格式转换、文本去重百科数据22.0百度百科、搜狗百科等百科类数据文本去重电子书籍299.0不同主题的电子书籍,如小说、历史、诗歌、古文等敏感词过滤、基于模型的文本过滤Common Crawl714.92018 年1 月—2020 年12 月的Common Crawl 网页数据数据清洗、过滤、去重等所有数据处理步骤新闻数据35.51992—2011 年的新闻数据文本去重 2.4.2