非Transformer架构的端侧大模型创新研究与应用 演讲人:刘凡平 ROCKAI,CEO 端侧大模型的现状与挑战 CONT目E录NTS 01 02 ROCKAI的端侧大模型的实践 03 未来趋势 端侧大模型的现状与挑战 以全行业视角 工信部赛迪研究院数据显示,预计2035年生成式人工智能有望为全球贡献近90万亿元的经济价值,其中我国将突破30万亿元,占比超过四成。浙商证券预计到2028年全球大模型市场规模将达到1095亿美元,2022~2028年复合增长率约为47.12%。 以终端设备视角 IDC预测,2024年中国终端设备市场中,将有超过半数的设备在硬件层面具备针对AI计算任务的算力基础,至2027年,这一比例将进一步攀升至接近80%的水平。瑞银预计生成式AI智能手机出货量将从2023年的5000万部增长到2027年的5.83亿部,到2027年收入将达5130亿美元,未来面向广大C端用户的端侧大模型市场前景广阔。 对于“狭义端侧模型”而言,软硬件技术的核心目标在于为用户提供大语言模型推理服务,在软硬件协同优化下实现了大语言模型在终端设备上的本地化应用,训练和微调并非端侧需要考虑的任务。 AIPCAI手机具身智能 1.3现有大模型在端侧应用的局限性 1.4目前端侧大模型的主流技术方法 1.5行业针对大模型的创新研究 TransformerModels 4 3 4 11 ModelArchitectureRecurrentNeuralNetworks 2 3 2 7 MixtureofExperts 3 5 4 12 MultimodalModels 5 3 5 13 SupervisedLearming 4 3 2 9 TrainingTechniquesUnsupervisedLeaming 4 3 4 11 ReinforcementLearning 3 4 5 12 TransferLearning 3 5 4 12 NaturalLanguageUnderstanding 3 3 5 11 ApplicationDomainsNaturalLanguageGeneration 3 4 5 12 ConversationalAI 4 5 5 14 CreativeAI 4 5 5 14 BiasMitigation 4 4 5 13 ComplianceandEthicalConsiderationsDataSecurity 3 3 3 9 AIEthics 4 4 1 9 PrivacyPreservation 2 4 4 12 Self-supervisedLearning 4 5 3 12 AdvancedLearningMeta-learming 3 3 5 11 FineTuning 3 3 2 8 HumanValueAlignment 1 1 1 3 MultimodalLearning 5 3 5 13 EmergingTrendsInteractiveandCooperativeAI 4 3 5 12 AGIDevelopment 4 4 3 11 AGIContainment 1 1 5 7 DomainSubdomainMoEMultimodalityAGIOverallScore ROCKAI大模型的实践 标准Tran1sformer架构 基于Tra2nsformer架构 Yan架构3:自然语言 Yan架构4:通用全模态 行业主流的大语言模型架构局部创新算法的大模型架构, 实验室阶段 已通过网信办备案 Dolphin系列模型 自研非Transformer架构的低算力通用自然语言大模型 2024年1月发布 基于Yan架构的全模态实时人机交互系统 Yan架构通用大模型 国内首个非Attention机制大模型,行业领先的非Transformer架构大模型 自主知识产权 安全、可控、可信 Yan1.2网信办备案中 我们为什么要做非Transformer架构的大模型? 算力要求高,数据质量要求高 复杂且参数量巨大,需要极高的计算资源,增加了模型开发的成本,限制了小规模团队或个人在该领域的创新。同时高质量数据集进行预训练,由于数据量不足或者质量不高,导致模型性能难以达到最优。 可解释性差,严重的机器幻觉 其内部工作原理复杂,缺乏直观的可解释性。由于模型决策过程难以理解,导致用户和开发者难以信任和优化模型。生成或预测的结果与现实世界知识相冲突,导致信息不准确甚至是逻辑矛盾。 能耗与环境影响,不可持续性 训练大规模的Transformer模型需要消耗大量的电能,增加了经济负担,在追求技术进步的同时,缺乏对环境影响和可持续性发展的全面考虑。 图灵奖获得者 YoshuaBengio 我们还需要在方法层面取得一些根本性突破,才能弥合人工智能与人类之间的差距。为了解决大模型目前存在的问题,我们需要探索ScalingLaw之外的新方法。 YannLeCun ChatGPT、Gemini等大家熟悉的模型都是自回归大语言模型架构。虽然这些模型表现惊人,但它们经常出现愚蠢的错误,比如事实错误、逻辑错误、不一致、推理有限、毒性等。此外,LLM对潜在现实的了解有限,缺乏常识,没有记忆,而且无法规划答案。 GeofferyHinton 我对于大脑如何实际获得梯度信息、是否通过某种近似反向传播机制或是完全不同的方法来实现这一点,仍持开放态度。我认为这是个重大且尚未解决的问题。 《AttentionisAllYouNeed》论文作者 AidanGomez 这个世界需要比Transformer更好的东西,我们所有人都希望它能被某种东西所取代,将我们带到一个新的性能高原。现在使用了太多的计算资源,做了很多浪费的计算。 IlliaPolosukhin 就像2+2,如果你将他输入到模型中,它就会使用一万亿个参数,我认为自适应计算是接下来必须出现的事情之一,我们需要知道在特定问题上应该花费多少计算资源。 Transformer架构无法引领我们走向通用人工智能。 实现真正意义上的通用人工智能——即能像人类一样在多种任务上达到或超过人类表现的智能体,仅凭Transformer架构可能远远不够。AGI不仅需要理解并生成语言的能力,还要求具有抽象思考、因果推理、自我反思以及跨领域迁移学习等更复杂认知功能。当前的Transformer架构模型主要基于大规模数据训练出的概率统计模式匹配能力,并没有真正理解和掌握这些高级智能特征。 模型需要至少支持“理解表达、选择遗忘、持续学习”三种基础能力。 人类的记忆是有限的且会随着时间而模糊或选择性遗忘。真正的智能体需要能够在与环境的互动中持续学习,而不仅仅是通过静态训练数据来提升能力。 数据日常工作、生活中,而非刻意采集。 现实世界的数据充满噪声且高度多样化,这种“野生”环境下的学习更能反映真实应用的需求。从日常生活工作中获取的数据能够帮助模型更好地理解人类的自然行为模式和复杂的社会动态。 非Transformer架构的Yan架构大模型是什么原理? 一定不是Attention机制! 两个基本原理 1、替换Transformer架构中o(n2)的Attention机制; 2、减少不必要的神经网络参数参与模型的训练与推理,按需被使用。 MCSD 采用MCSD(Multi-ChannelSlopeAndDecay)模块替换Transformer架构中的Attention机制,并成功验证了ScalingLaw机制。 类脑激活机制 基于仿生神经元驱动的选择算法是一种类脑的激活机制,正如人类在开车时视觉皮层被大量激活,而在思考问题时逻辑区被大量激活。 2.6Yan架构大模型原理:MCSD MCSD整体架构如图一(a)所示,具有轻量级部署和快速推理能力,以解决主流Transformer的全局注意力机制使用矩阵乘法导致模型计算复杂度高,推理速度慢的问题。 其中MCSD模块如图一(b)是MCSD模型的核心之处,通过斜率变换和指数衰减两个部分提取输入数据中的当前和历史信息,并进行位置感知的多通道特征融合。 2.7Yan架构大模型原理:类脑激活机制 采用类脑的激活机制,实现基于仿生神经元驱动的选择算法,融合了生物启发式计算与人工智能领域的最新进展。通过模拟大脑中的神经元激活模式,能够更加有效地处理复杂数据和任务,显著提升了计算效率和精度,也为解决现实世界中的复杂问题提供了新的思路和工具。 图:单模态(文本)下的神经元选择应用示例图:多模态下的神经元选择应用示例 2.8端到端的多模态Yan架构大模型 会不会效果不好?端侧上能跑吗? 非Transformer架构代表了行业未来新的可能。 Modeltype Modelsize ARC-C ARC-E WinoGrande MMLU Hellaswag Average Llama3 8B 79.6 92.3 67.1 66.3 69.5 75.0 Pythia 2.8B 32.9 64.1 59.7 26.8 59.3 48.6 Mamba 2.8B 36.3 69.7 63.5 26.2 66.1 52.4 RWKV4 3B 33.1 67.8 59.6 25.6 59.6 49.1 Yan1.3-preview 3B 74.6 86.9 81.9 61.9 75.4 76.1 低成本高性能的设计 创新采用优化算法与结构设计,相对于相同参数量的传统Transformer大模型具备7倍的训练效率、5倍的推理吞吐、3倍的记忆能力并且支持CPU无损运行以及更低幻觉表达。 消费级终端无损部署 优化模型设计,使其能无缝安装于树莓派等低功耗计算平台,拓宽应用场景至智能家居、物联网等领域。 类人的设计 类人的学习。引入同步学习机制,使大模型的训练与推理过程并行,模仿人类“边学边用”的认知模式,持续优化和更新知识库,以应对动态变化的环境。 类人的感知。融合视觉、听觉等多模态信息处理机制,构建全面的感知体系,模拟人脑对复杂外界刺激的理解与响应。通过跨模态关联学习,增强模型在多场景下的泛化能力和鲁棒性。 类人的交互。实现秒级实时反馈的人机交互模式,提供流畅、自然的沟通体验,强化情感理解和表达功能,提升模型在对话中的情感共鸣能力,增强人机互动的亲和力与可信度。 算力不到普通家用笔记本的1/8 模型 压缩 吞吐 首次耗时 连续10字 主流8B模型 Q4 1.89tokens/s 10s 5s Yan1.2 无损 7tokens/s 2s 1.5s ARMCortex-A76芯片,4核2.4G频率 其他百亿模型(目前无法移植到树莓派) 树莓派中运行自然语言大模型。Cortex系列芯片广泛应用在机器人、工业控制、智能家居、平板电脑、无人机等。 Yan1.2在手机中的性能 Yan1.2多模态大模型离线部署在手机中也能流畅运行。可通过自然语言输入,Yan1.2可以理解并处理任务,为用户提供更优质的体验,每秒可达20+tokens输出。 相比于传统语音助手,区别如下: 打开应用 搜索相册 内容总结 看图写作 Yan1.2✅ ✅ ✅ ✅ 其他语音✅ ❎ ❎ ❎ 小智机器人 基于树莓派5离线部署 超低算力部署Yan1.2多模态大模型,构建多模态的智能类脑。 1、通用自由问答:语音交互、语义理解 2、环境感知:视觉识别与理解 3、自我看书学习:视觉理解、语义理解 4、动作控制:语音交互、肢体控制、指令生成 5、七步成诗:内容生成、肢体协调 ...... 小智机器人:断网模式下的Yan1.2多模态 不同架构下,对于模型训练和推理过程有什么影响? 模型推理 模型训练 2.14训练与推理过程对比 2.15端侧直接训练演示 说明:一个10亿参数量的模型,在本地直接训练的示例,训练后直接本地推理。