提升⼤模型知识密度做⾼效的终端智能 演讲⼈:李⼤海 ⾯壁智能CEO&联合创始⼈ ⾼效⼤模型就是⾯壁智能 更快速度,更低成本提供最优智能实现⽅案 ⾼效是⼀种惯性,⾯壁是⼤模型前沿持续引领者 领跑智能体 •发布智能体通⽤平台AgentVerse 超越GPT-3.5 •发布第三代千亿参数多模态⼤模型CPM-Cricket,评分超越 领先⾛向端侧智能 •2⽉,发布旗舰级端侧模型MiniCPM-2B •4⽉,发布MiniCPM2.0版本, 更新4款⼩参数模型 超前⼊局⼤模型 •2019年,发布世界⾸个知识增强⼤模型ERNIE •2020年,发布国内⾸个中⽂⼤模型CPM-1 •2021年,发布持续学习⼤模型CPM-2 •2022年,发布可控⽣成⼤模型CPM-3 登顶世界级榜单 •发布CPM-Bee多语⾔百亿⼤模型,登顶ZeroCLUE •发布多智能体协作开发框架ChatDev,屡次登顶GitHubTrending •发布超强AI智能体应⽤框架XAgent,全⾯超越海外最强框架AutoGPT GPT-3.5,逻辑能⼒⽐肩GPT-4 第三代⼤模型技术 第四代⼤模型技术 第⼀代⼤模型技术 公司成⽴ 第⼆代⼤模型技术 开启商业化运作 201920222023Q1 2023Q2 2023Q32023Q42024Q1 |GPT3.5发布GPT4发布GPTs公开| ⾼效,来⾃对 ⼤模型科学化的不懈追求 2018年以来⻅证⼤模型规模法则(ScalingLaw) OpenAI引领验证,在⼤数据+⼤算⼒⽀持下,越⼤的模型可以产⽣越强的智能⽔平,即规模法则 7 2018年以来⻅证⼤模型规模法则(ScalingLaw) OpenAI引领验证,在⼤数据+⼤算⼒⽀持下,越⼤的模型可以产⽣越强的智能⽔平,即规模法则 ? 难道AI就是“暴⼒美学”追求越⼤越好? ⼤模型的可持续发展之路会是什么? 半导体发展趋势:摩尔定律 半导体⾏业在摩尔定律指引下,持续改进芯⽚制造⼯艺、提升芯⽚制程,核⼼是提升芯⽚电路密度实现了计算设备⼩型化 第⼀台通⽤通⽤电⼦计算机 27t IBM650 2.8t PDP-1 730kg 个⼈台式机 APPLEII轻薄笔记本电脑 笔记本电脑 IBM AppleMacBookAirM1 智能⼿机 5.2kg 13.6kg 4.1kg 3.4kg 1.29kg 226g 华为Pura70Ultra 194 195195 197 198198 199 202 202 8 知识密度 ⾼效⼤模型第⼀性原理 参与计算的 ⼤模型数据驱动技术⽅向⼤致确定 模型架构-算法-数据技术⽅案仍⾼速迭代需持续改进模型制程,极致提升知识密度 ⼤模型发展趋势 随数据-算⼒-算法协同发展,模型知识密度持续增强:20年GPT-3175B能⼒24年2B参数量即可达到 model 过去四年⼤模型知识密度平均每8个⽉翻⼀倍 MiniCPM2.4B为⾯壁智能团队2024年2⽉发布语⾔⼤模型 1100 知识密度持续增强:⼤模型时代的“⾯壁定律” 摩尔定律 芯⽚电路密度每18个⽉提⾼1倍⾯壁定律 模型知识密度每8个⽉提⾼1倍 随数据-算⼒-算法协同发展,模型知识密度持续增强,2020 MiniCPM2.4B为⾯壁团队2024年2⽉发布语⾔⼤模型 半导体发展趋势集成电路上可容纳的晶体管数⽬,约每隔两年增加⼀倍 ⼤模型发展趋势 年GPT-3175B能⼒到2024年MiniCPM2.4B模型即可达到, 知识密度提⾼约86倍! 芯⽚制程带来终端算⼒持续增强,模型制程带来模型知识密度持续增强,两者交汇揭示端侧智能巨⼤潜⼒ ⼈⼯智能科学化:推动⼤模型⾼质量发展 科学化历程将引领⾼质量发展,数据驱动的⼤模型技术⽅向⼤致确定,架构-算法-数据的技术路线⾼ 速迭代,需要围绕如何极致提升“知识密度”,探索⼤模型科学化建设⽅案 科学化引领⾼质量发展⼤模型科学化问题 科 学基于三元流动理论的 化斯⻉发动机(1960年 发代) 展引 领涡轮机械三元流动理论 ⾼(吴仲华1950年代) 质 量发展 第⼀架喷⽓式⻜机 (1939年) 三叉戟客机 A-7E F4K 歼8(国产) 探索模型成⻓规律模型⻛洞 探索智能表示架构Mamba、KAN 探索⾼质量数据合成与多模态融合机制 GPT4o 13 ⼈⼯智能科学化-成⻓⾼效:模型⻛洞技术 构建模型⻛洞,在⼩模型⾼效寻找最优数据和超参配置并外推⾄⼤模型,让模型成⻓摆脱“炼丹”窘境 训练损失函数 训练时间 基于经验的 学 习 曲 线 32 1010 训基 学 练于 习 曲 损 模型 线 ⻛ 失洞 函的 数训练时间 14 ⼤模型科学化结晶 ⾯壁模型⻛洞 探寻⼤模型⾼效成⻓规律,摆脱“炼丹”窘境 更⾼知识密度带来更⾼效模型 同等参数更⾼性能,同等性能参数更⼩ 在⼩模型上⾼效寻找最优数据和超参配置,并外推⾄⼤模型通过科学提升训练⽅法与数据质量,2024年2⽉发布MiniCPM2.4B 以⼩博⼤、越级超越Mistral-7B,Llama2-13B等明星模型 极致以⼩博⼤+⾼效低成本|GPT-4V级最强端侧多模态|国际开源明星 ⻓⽂本与MoE模型 最⼩128K⻓⽂本模型 ⾼性能MoE模型 MiniCPM基座模型 极致以⼩博⼤+极致⾼效低成本2.4B+1.2B+1.2B极速版,适配更多场景新⼀代⾼效低能耗架构,2.8倍迅疾响应 MiniCPM-V多模态模型 全⾯GPT-4V级最强端侧多模态+OCRSOTA实时视频、多图联合理解,⾸次上端 9倍像素更清晰,难图⻓图⻓⽂本精准识别 成为端侧AI性能标尺全球技术社区好评如潮 全⽹下载146万+ GitHubStar15k+ MiniCPM以如此震撼的⼩尺⼨,做出了极具深度的⼯作。 来⾃OpenBMB团队的极具创意的⼯作……看来,我们似乎远没有穷尽⼤语⾔模型训练的可能性。 极致以⼩博⼤ 同等性能参数更⼩,同等参数性能超强 来⾃「欧洲OpenAI」性能标杆之作 2B量级整体领先,7B量级多项超越 越级7B,13B量级模型 图中模型评测均采⽤UltraEval评测框架。选择常⽤的 评测任务:C-Eval,CMMLU,BBH,MMLU,HumanEval,MBPP,GSM8K,MATH,HellaSwag,BoolQ,PIQA,WinoGrande,ARC-e,ARC-c,从不同的能⼒维度检验模型的能⼒,最终取所有任务的均值作为最终结果进⾏展示。 极致⾼效低成本 上千次「模型沙盒」实验,1元=1,700,000tokens* ⽀持主流CPU推理极致压缩多AI硬件适配 1元=1,700,000tokens量化版压缩75%,性能⼏⽆损耗AMD,Intel,⾼通,MTK等已适配 1台机器持续训练,1张显卡⾼效微调 以搭载骁⻰855芯⽚的智能⼿机为例,成本600元⼈⺠币,⼀共运⾏5年,每秒7.5tokens,170万tokens的推理成 本仅为1元⼈⺠币(GPT-4的推理成本为1⼈⺠币4700token)。当前⼿机推理未曾深⼊进⾏优化,⽽GPU加速已采⽤各种采样加速进⾏优化,未来⼿机推理成本可进⼀步降低 ⾯壁MiniCPM-2B MiniCPM-Llama3-V2.58B 最强端侧多模态综合性能 8B量级,超过多模态巨⽆霸 GPT-4V、GeminiPro等 模型雷达图显示MiniCPM-Llama3-V2.5综合能⼒⽔平全⾯优秀 OCR能⼒SOTA! 9倍像素更清晰,⻓图难图⻓⽂本精准识别 OCRBenchSOTA,越级超越GPT-4o、GPT-4V、GeminiPro等标杆模型幻觉能⼒超GPT-4V(ObjectHalBench),现实世界空间理解能⼒超G PT-4V,GeminiPro(RealWorldQA) ⾯壁⾃研⾼清图像解码技术突破传统20w像素⼩图困境 从448x448分辨率,⻜跃⾄1344*1344分辨率⾼清解析,甚⾄可达到1:9极限宽⾼⽐(448*4032) 端侧⾼效运⾏ ⾸次端侧系统级多模态加速 图像编码加速快 150倍 量化后仅 8B显存 消费级显卡轻松推理 4070 端侧⾼效运⾏ 6-8Tokens/s 实时视频理解 实时看⻅与理解真实世界 开启具身智能等AGI⽆限可能 帮我看看这里是什么样子? 瞧,她正要画些什么? 太长不看,这段视频讲了什么?北京的早高峰是什么体验? 流畅的多图联合理解 多张图⽚⼀⼝⽓处理 ⼀直识图⼀直爽 超聪明的复杂推理能⼒难图梗图不在话下 MiniCPM-V2.6微表情捕捉分析⼈类⼼理 ⾸创:180万像素⾼清图像解码技术 20万 像素⼩图 448×448 180万 任意⻓宽⽐⾼清图像 1344×1344 180万 1:9极限宽⾼⽐ ⾼清图⽚,⾼效编码,任意宽⾼⽐图像⽆损识别 从448x448像素,到180万⾼清⼤图,甚⾄1:9极限宽⾼⽐(448*4032) ⾼清图像⾼效编码背后的独家技术:LLaVA-UHD 模块化视觉编码 修 空间 将原始分辨率图像划分为可变⼤⼩切⽚饰 ⽅ ⽆需像素填充或图像变形实现对原始分辨率的完全适应性法 视觉压缩模块 视 使⽤共享感知器重采样层压缩图像切⽚的视觉tokens觉 压 模 不管分辨率多少token数量都可负担,计算量更低缩 块 ⽀持任意宽⾼⽐图像编码 空间修饰⽅法 使⽤⾃然语⾔符号的简单模式有效告知图像切⽚的相对位置 模块化视觉编码 统⼀⾼清视觉架构 同时⽀撑单图、多图、视频理解能⼒,实现⾼效能⼒迁移和知识共享 180万 任意⻓宽⽐⾼清图像 单图 场景 能⼒知识 迁移共享 多图场景 视频场景 180万任意⻓宽⽐⾼清编码 统⼀⾼清视觉框架 ⽆缝扩展⾄⾼清变⻓宽⽐多图、视频 统⼀形式 第1张图第2张图第n张图 … 多个场景 单⼀模型满⾜不同视觉理解场景 节省75% 相⽐同类模型编码180万像素图⽚视觉token数量 MiniCPM-V2.6 640tokens MiniCPM-Llama3-V2.5 960tokens 同类模型 2560-10ktokens 多语⾔:跨模态跨语⾔泛化技术 解决中⽂领域缺乏⾼质量、⼤规模多模态数据的挑战 论⽂发表于ICLR2024 基础能⼒跨语⾔泛化 基于基座模型中英双语能⼒ 仅通过英⽂通⽤域图⽂对数据进⾏预训练 实现多模态基础能⼒从英⽂到中⽂的跨语⾔泛化 中⽂多模态能⼒⾼效激发 少量⾼质量中⽂指令微调数据 ⾼效激发中⽂多模态基础能⼒ VisCPM:仅通过英⽂多模态数据预训练,泛化实现优秀中⽂多模态能⼒中⽂图⽂对数据质量分布 端侧算⼒分布离散、总量巨⼤亟待激活,端侧AI市场势能强劲 智能终端年出货量 2022年全国数据中⼼算⼒12+倍 智能⼿机2.7亿台 7100+ 存量⼿机终端算⼒总规模 阿⾥云张北超级计算中⼼147+个 英伟达H100芯⽚近100万⽚ 个⼈电脑4,000万台智能汽⻋2,000万台智能家居3.3亿台 智能穿戴1.2亿台 注:1)算⼒规模统⼀这算为INT8算⼒进⾏类⽐,1TOPS代表处理器每秒钟可以进⾏⼀万亿次操作,1EOPS等于100万TOPS2)出货量数据来⾃IDC、Canalys、中商产业研究院、⾼⼯机器⼈产业研究所预测 3322 ⾯壁⼩钢炮旗舰端侧模型 把⼤模型放到离⽤户最近的地⽅ THANKS 构建世界最好的端侧⼤模型