您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[甲子光年]:2024人工智能开源大模型生态体系研究 - 发现报告
当前位置:首页/行业研究/报告详情/

2024人工智能开源大模型生态体系研究

信息技术2024-06-21努尔麦麦提·买合木提甲子光年机构上传
AI智能总结
查看更多
2024人工智能开源大模型生态体系研究

2024 人工智能开源大模型生态研究 开源为先场景突破 Part01 目录 发展人工智能产业的重要性与新机遇 CONTENTS Part02人工智能大模型的开源生态体系分析 Part03人工智能开源大模型的创投情况分析 Part04开源大模型生态建设的成功经验与典型案例 Part05人工智能大模型典型商业化案例及未来展望 1.1人工智能发展进入应用落地阶段 人工智能技术经历70年的发展已经进入成熟期,即将进入大规模应用落地阶段 人工智能即将进入大规模应用落地阶段 逻辑推理为主,聚焦决策、认知能力 AI 能力 以概率统计的建模、学习和计算为主,聚焦感知、认知、决策 聚焦学习环节,大模型 聚焦执行与社会协作环节 智慧医疗 用药 药物研发 医疗知识库智智能导诊 产生情感? 自动驾驶 视觉感知 高级辅 情感伦理 提醒三维 助驾驶 社会协 作 ChatGPT GPT-4 生物识别 智慧金融 AIGC ? 智能制造 智能诊断 智能工厂 实时监控 与操控 重建点云处理 车路协同仿真测试 智慧科研 执行GPT -3 自然语言 风险评估反欺诈 智能 智能 质检协作机 智能供应链 农作物监测 气象预报 Transformer 投顾 处理智能器人 分解为五大学科 学习 机器神经深度 逻辑学习网络学习 人脸语音 识别识别 理赔智能保顾 数字人 辅助诊断 智慧能源 智慧电网 天文发现高分子材 料研发 蛋白质结构 预测 决策推理 智慧交通 车辆路网 与筛查 碳资产管理 智能调度智能勘测 认知 车辆 识别智能 感知路灯 智能交管 智能停 车管理 电力巡检 智慧工地 与开发 时间 195619741980198719952013202020212022202320252030 1.2数据、算力、算法作为人工智能发展的核心三要素已经具备基础条件 人工智能三要素:数据(data)、算法(algorithm)和算力(computingpower); 人工智能(A)的快速发展依赖于三个核心要素:数据,算法,算力。这个观点已经得到了业界的高度认可。只有这三个要素同时满足了才能加速人工智能的大发展。随着人工智能大模型规模变大以及普及应用,人工智能对能源的需求也在不断加大,逐渐成为人工智能发展关键因素之一。 人工智能核心三要素:数据、算力、算法 工业 模型训练VGGRestNetDeepSpeech 应用 模型方法DNNCNNRNNRBNLSTMRL 算 训练框架 Keras TensorFlow Theano Caffe2 PyTorch 医疗 金融 工具TensorBoardTensorflow-Slim 法 数据 基础架构 K8SOpenStackKubeFlowPaddleEDLHadoopSpark 训练、微调…… 安防 管理 zookeeper Matplotib 格式TFRecord 处理Pandas Imdb Kettle RecordIOHive 获取 Scrapy BlockChain 存储 HDFS MySQL HBase MongoDB 现在AI算力需求最密集的地方是训练,但是AI价值最高的地方是推理,而不是训练。 商业电商 交通 算 通信 基础设施CPUGPUFPGATPUBPUNPU 力大量高性能硬件组成的计算能力 (几千个GPU组成的计算机群) 1.3大数据+大算力+通用大模型成为新的发展范式 大数据+大算力+通用大模型成为新的发展范式,将推动AI能力提升逼近通用人工智能 持续进化,AI综合能力逼近临界点 AI能力进化曲线 AI 情感 伦理 社会协作 执行 大数据+大算力+通用范式 大数据+小算力+专用范式 逻辑推理为主 综合能力 感知 决策 学习 认知 1956 2013 202020232030?时间 1.4人工智能将推动人类文明生产力跃迁和生产效率的飞跃 工智能智能将推动人类文明生产力的跃迁,标志着人类生产效率出现了第二次脑力效率飞跃 AI2.0时代将开启社会生产力新变革,首先体现在对于人类生产效率的颠覆式提升。 人类文明演进依次走过了原始时代、农业时代、工业时代、信息时代、数字时代,到今天的数智时代,每个时代的代表性生产工具都不同。所有生产工具反映的都是生产效率的提升能力。数字时代的云、网、端、芯、链等数字工具,除了体力效率的提升之外,还有脑力效率的辅助作用,ChatGPT所代表的AIGC工具的出现,标志着人类生产效率出现了第二次脑力效率飞跃,是新一轮生产力的跃迁,真正实现从体力效率提升向脑力效率提升的转变,这将推动人类社会发生深远变革,其意义不亚于新时代的蒸汽机。 生产效率的提升 脑力 创意 脑力 辅助 农具+牛 体力 社会生产效率提升与人类文明进化历程 PC/软件 云、网、端、芯、链 机械 人工智能 脑力生产效率的二次飞跃内容再加工者 AIGC 脑力生产效率的提升内容生产者 体力生产效率的提升体力输出者 石器 原始时代农业时代工业时代信息时代数字时代数智时代 1.5人工智能进入时代拐点,大模型开源生态成为推动AI产业发展的重要模式 大模型开源生态成为推动人工智能产业从技术走向应用的重要模式 开源大模型是指基于开源软件模式,由全球开发者共同参与、共同维护、共同发展的机器学习模型。开源大模型的特点是开放性、共享性和可扩展性,这使得开源大模型在全球范围内得到了广泛的应用和推广。目前,开源大模型已经成为全球人工智能领域的重要发展趋势。 模型开源生态不仅加速了人工智能技术的创新,而且推动了其在各个行业的广泛应用。通过开源大模型,企业能够更快地实现任务部署和技术落地,这对于人工智能产业的发展起到了关键作用。随着更多的开源大模型案例和应用的发布,我们可以预见人工智能将在未来的经济社会发展中扮演更加重要的角色。 开源生态的加速形成是大模型时代“安卓时刻”的来临 应用:垂直场景 •开源系统的优势在于影响力的迅速扩散,加快垂直场景应用; 平台:模型部署 •开源生态参与者、开发者众多,反应速度快,商业化探索更具潜力; 开源大模型 •大模型开源,有助于企业/开发者加快实现任务部署和技术落地应用,促进产业发展成熟与生态形成。 Part01发展人工智能产业的重要性与新机遇 目录 CONTENTS Part02 人工智能大模型的开源生态体系分析 Part03人工智能开源大模型的创投情况分析 Part04开源大模型生态建设的成功经验与典型案例 Part05人工智能开源大模型典型商业化案例及未来展望 2.1人工智能技术架构的演变与新趋势 人工智能技术进化出七大核心能力,实现从“解放四肢”到“解放大脑”的升级 第一阶段AI以逻辑推理为主,AI能力主要聚焦决策和认知;第二阶段AI注重概率统计的建模、学习和计算,AI能力开始聚焦感知、认知和决策;第三阶段AI聚焦学习环节,注重大模型的建设,AI能力覆盖学习和执行;第四阶段则聚焦执行与社会协作环节,开始注重人机交互协作,注重人类对人工智能的反馈训练。 当下正处于第四阶段,这一阶段从2020年开始,代表性事件是GPT-3的发布,突破了以往模型在自然语言处理领域的限制,为语言模型的进一步发展提供了强有力的基础,也为实现智能化的语言交互和人机对话打开了全新的可能性,是人工智能发展的一个关键节点。 AI能力 不同时期AI侧重能力进化路线 为主,聚焦感知、认知、决策 逻辑推理为主,聚焦决策,认知能力以概率统计的建模、学习和计算 聚焦学习环节,大模型 聚焦执行与社会协作环节 产生情感? 情感伦理社会协作执行 学习 决策 逻辑推理 认知感知 机器神经 学习网络 机器人学 机器学习深度 学习 认知科学自然语言理解 计算机视觉 GPT-3 G PT-4 ? ChatGPT Transformer 19561974198019871995201320202021202220232025E时间 2.2基于新一代人工智能开源技术架构的大模型开源生态体系 基础设施、大模型、行业应用构成大模型开源生态体系 行金融教育 业应用 编程医疗文娱 通用大模型专用大模型 大模型 基芯片云平台数据 础设施 2.3大模型开源生态体系的创新主体与创新机制 开源是大模型未来,开源生态体系持续演进 开源大模型是基于开源软件模式,由全球开发者共同参与、共同维护、共同发展的机器学习模型。开源由开源规则、开源对象、开源基础设施、参与主体组成。是参与主体在基础设施之上针对对象在遵循一定规则下的一种开放式协作模式,其目的是为了能产生公开复用的产出物。 开源的优势,在于降低商业软件采购成本、增强可定制性、保障软件高质量更新、维持技术创新等。 技术流派 通过Github等平台发布 建设自有平台 Decoder-only、encoder-decoder为主流架构 LLaMa系列单卡版本成为社区热点 baichuan-7B大模型已在HuggingFace、Github以及ModelScope平台发布 魔搭社区提供最新最热、开放开源的多领域预训练模型和优质数据集 所用数据 基于Chatbot生成的问答数据集 合规高质量数据集 ChatGLM开源大模型在Huggingface、GitHub发布 天工Skywork-13B系列模型在 GitHub开源 千帆大模型平台不仅提供了包括文心一言底层模型和第三方开源大模型,还提供了各种AI开发工具和整套开发环境 腾讯云TI平台接入LLama2、Falcon等超20个主流模型,支持大模型直接部署调用且可全程低代码操作 2.4.1中国大模型开源生态体系的竞争格局 大模型开源生态体系由算力层、基础层、平台层、应用层、安全层构成 大模型开源生态体系 应用层 LightGPT BERT 平台层 基础层 Llama 安 全ERNIE1.0 层 PanguAlpha QwenGTE AquilaCode LLaMA-2-7B-32K SQLCoderColossal-chat OpenLLaMA13B Distil-Whisper Skywork-13B Qwen vacuna BGE ERNIE1.0 PanguAlpha AgentLM LightGPT BERT Llama ERNIE1.0 E5-Large-v2 BGE CPM-Bee StarCoderPythia Distil-Whisper MOSSXGen MPT GPT4All MPT-30 GPT-1 GPT-2 Dolly Claire BloomLM GPT-JBERTChatGLM FalconXVERSEGPT-Neo Llama StableCode ERNIE1.0PanguAlphabaichuanYiQwenYuan2.0 StableDiffusionXL 云算力算力 GPU算力 算力层 2.4.2中国大模型开源生态体系代表性厂商——华为 鹏程·盘古——大规模自回归中文预训练语言模型 鹏程·盘古模型是全球首个全开源2000亿参数的自回归中文预训练语言大模型,在知识问答、知识检索、知识推理、阅读理解等文本生成领 域表现突出。 模型压缩 26亿盘古模型动态剪枝 盘古大模型联邦剪枝探索 鹏程·盘古模型的规模和参数 模型参数数量/亿层数内层维度FFN大小头数 应用层 模型文件迁移、模型代码对齐、并行训练实现 可持续学习 框架移植 提示微调 持续学习pipeline 鹏程·盘 古13B 1314051202048040 基础模型 鹏程·盘古模型中文语料数据组成 数据来源大小(GB)数据源数据处理步骤 人工评估 百科数据22.0百度百科、搜狗百科等百科类数据文本去重 鹏程·盘古2.6B 26 32 2560 10240 32 鹏程·盘古200B 2070 64 16384 65536 128 开放数据集27.9 15个开放数据集,如DuReader、数据格式转换、文本去重 BaiDuQA、CAIL2018、Sogo