地瓜机器人RDK系列部署生成式AI模型 陈冠中地瓜机器人算法工程师 DataFunSummit#2024 RDK系列产品介绍 RDK上的模型部署RDK上LLM的技术选型 RDK上LLM的实际效果演示 01 RDK系列产品介绍 实时性:嵌入式系统通常需要能够在严格的时间限制下运行。 可靠性:由于嵌入式系统通常被嵌入到其他设备中,因此其稳定性和可靠性非常重要。 低功耗:嵌入式系统通常需要在低功耗模式下运行,以便延长其电池寿命或降低功耗成本。 低成本:嵌入式系统通常需要在成本可控的情况下设计和制造。 嵌入式系统是一种专门设计用于特定任务的计算机系统。它通常被嵌入在另一个设备中,以控制、监测或执行某些特定功能。嵌入式系统通常包含一个或多个微处理器或微控制器,以及与其配套的硬件和软件。嵌入式系统可以用于各种不同的应用领域,例如汽车、家电、医疗设备、电子玩具、军事设备等等。 嵌入式系统通常需要满足以下特定要求: 智能会议 机器人智能家居 服务工具链 智能音箱 芯片算法 智慧教育 AIoT与通用机器人 边缘计算盒 2022.6 2023.5 2023.7 2024.9 2025 2026 RDK:RoboticsDeveloperKit RDKX5 RDK全称为RoboticsDeveloperKits,即地瓜机器人开发套件(RDK) 是基于地瓜智能芯片打造的机器人开发者套件,包括RDKX3、RDKX3Module、RDKX5、RDKX5Module等。搭配TogetheROS.Bot机器人中间件,RDK套件可以帮助开发者快速搭建机器人原型,开展评测和验证工作。 RDKX3Module RDKX3v2.0 RDKX5Module RDK? RDKX3 Compute:5TopsCPU:4×CortexA531.2GDDR:2/4GB Wi-Fi:2.4G Compute:5Tops CPU:4×CortexA531.5GDDR:2/4GBeMMC:16/32/64GB Wi-Fi:2.4G/5G Compute:5Tops CPU:4×CortexA531.8GDDR:2/4GB Wi-Fi:2.4G/5G Certification:CE/FCC/MIC/KC Compute:10Tops CPU:8×CortexA551.5GGPU:32Gflops DDR:4/8GB Wi-Fi:2.4G/5G Compute:? CPU:?GPU+Audio?DDR:?eMMC:? Wi-Fi:? Compute:>20Tops 40PIN 最大化复用拓展 4G/8GRAM 灵活选择 CANFD 灵活连接机器人底盘和电机 HDMI 更好兼容常见数据线 双频wifi6+蓝牙5.4 极速通信 USB3*4 全高速通信 多标准兼容耳机 多模应用 天线模块媲美棒状天线 TypeC供电 5V/5A Debug串口 便捷调试 千兆网口 支持POE供电 RTC 精准时间同步 TypeC闪连极速开发 双MIPI 4-Lane双目 公版模型 尺寸 类别数 参数量 BPU延迟 BPU吞吐量 后处理时间 Yolov8n 640x640 80 3.2M 5.6ms 263.6FPS 5ms Yolov8s 640x640 80 11.2M 12.4ms 194.9FPS 5ms Yolov8m 640x640 80 25.9M 29.9ms 35.7FPS 5ms Yolov8x 640x640 80 68.2M 90ms 11.2FPS 5ms Yolov10n 640x640 80 6.7G 9.3ms 132.7FPS 4.5ms Yolov10s 640x640 80 21.6G 15.8ms 71.0FPS 4.5ms Yolov10m 640x640 80 59.1G 30.8ms 34.5FPS 4.5ms 02 RDK上的模型部署 人工智能演变史 自然语言处理 自然语言处理是一种人工智能领域,旨在使计算机能够像人类一样理解和生成自然语言文本。自然语言处理的研究主要关注如何使计算机理解和处理人类语言,并从中提取有用的信息或生成符合语境的语言输�。 自然语言处理涉及到很多不同的任务,包括文本分类、情感分析、机器翻译、自动摘要、问答系统、命名实体识别、语言生成等。 传统语言模型的劣势在于:局限于某一领域的知识、泛化能力差难以迁移、上下问理解有限 基于transformer的大语言模型:基于海量(基本全互联网)数据进行预训练。对于特定场景的任务,只需微调适应常见:ChatGPT、文心一言、Llama、Baichuan2、同义千问等 分析现实问题 影响算法的选择、模型的评估、投入的成本 选用合适的模型 模型量化 减少训练好的模型 计算和储存需要的技术 寻找或编写对应的模型代码 模型训练与调优 使用数据集在模型中训练 围绕业务需求对模型目标调优 部署 模型存储、导�、推理服务的部署 系统对接、指标监控 问题定义数据准备模型选择/开发 定义数据范围:适配任务需求数据获取:下载,清洗 数据预处理:预处理、增强 数据集定义和切分:训练、评估、测试 实例分割 目标检测 以图搜图 https://github.com/D-Robotics/rdk_model_zoo/tree/main 图像分类 03 RDK上LLM技术选型 LLM类别 大语言模型(LargeLanguageModel,LLM)主要分为两类:基于transformer的模型和基于循环神经网络RNN的模型。 Transformer是近年来非常流行的一种神经网络架构,它在自然语言处理(NLP)任务中取得了巨大的成功。Transformer依赖于“注意力机制”(AttentionMechanism)来处理输入数据,从而更好地理解句子中各个词之间的关系。 RNN(循环神经网络)是一类适用于处理序列数据的神经网络架构。RNN通过“循环”的方式在时间步之间共享信息,因此非常适合处理像文本和语音这类序列数据。早期的语言模型大多基于RNN及其改进版本(如LSTM和GRU)。 RWKV模型在架构上继承了Transformer的思想,但在具体的实现上做了一些重要的改进,这些改进主要体现在TimeMixing和ChannelMixing两个方面 TimeMixing:与Transformer中的自注意力机制不同,rwkv模型引入了时间混合(TimeMixing)机制。这种机制关注序列数据中时间步之间的依赖关系,通过时间混合层来捕捉时间序列中的长期依赖性。TimeMixing通过加权平均和非线性变换的方式,将不同时间步的信息进行整合,确保模型能够有效捕捉序列的全局和局部信息。 ChannelMixing:ChannelMixing则是对序列中不同特征通道的处理。在Transformer中,特征通道的混合主要通过多头自注意力和前馈神经网络来完成,而在rwkv模型中,ChannelMixing采用了一种更加高效的方式。通过一系列的线性变换和激活函数来对通道信息进行融合。这种方法不仅减少了计算复杂度,还保持了模型的表达能力,使其能够在处理大规模数据时更加高效。 高效训练 高效并行训练,训练速度与上下文长度无关 O(1)内存占用 01 03 02 04 空间复杂度恒定O(1),transformer内存占用随 上下文长度不断增加,即O(T^2) 可解释性强 类似RNN,每次推理内部有固定大小的state,即上下文信息向量 O(T)推理速度 线性时间复杂度O(T),即与RNN持平transformer推理速度为O(T^2) 04 RDK上LLM效果演示 端侧RWKV-V5展示 端侧Llama1B展示 云端Qwen多模态展示 THANKS DataFunSummit#2024