中国开源生态系列图谱 ——人工智能领域 1 生态图谱解读 开源基金会 开发者社区 开源产业联盟 代码托管平台 AI引擎/框架 AI算法模型(库) 数据集 机器学习&深度学习平台/数据库 实验室/研究院 AI引擎/框架 定义&分类:AI框架是人工智能基础软件的核心,在整个人工智能体系中起着“承上启下”的作用。AI框架向下调用底层硬件计算资源, 为算法模型生成、训练和推理部署提供良好的硬件性能基础,向上承接AI算法模型搭建,支撑AI工程和产业应用。 板块特征: 01壁垒高 AI框架的构建需要时间、资金和AI底层 技术人才,包括AI算法、编译体系、通讯原理、硬件结构、API体系等,包括运维和部署 02产研应用 国产开源AI框架在赋能产业应用和科学 研究中发挥着越来越重要的作用。 03生态发展 框架与硬件、开发语言、开发环境以及 软件之间的协同、工具组件以及产业应用的配套发展,包括相关人才的培养都是开源AI框架项目需要重点考虑的因素 AI引擎/框架 发起机构分布:AI框架开源项目发起机构集中在科技厂商与高校科研院所两大类。 •其中科技厂商前期主要满足自身广泛的AI应用需求,后期逐渐向外拓展服务,如华为MindSpore、百度PaddlePaddle、腾讯TNN、阿里MNN、字节跳动BytePS以及小米Mace等。 •值得关注的是,近年来,高校科研院所开始逐渐重视AI框架的研发,但在开源后的资源维护和产业应用拓展模式上,国内高校科研院所仍在探索中,如清华大学发起的计图(Jittor)。 价值更可用 追求 更易用 更高效 更安全 AI算法模型(库) 机器学习&深度学习平台/数据库 发展特征: 为了解决之前AI模型的扩展性和通用性不高,以及依赖人工数据标注和标注数据量的问题,基础模型/大规模预训练模型提出了一种基于自监督学习的“预训练大模型+下游任务微调”的可行方案。这种模型可以在少量标注数据的基础上,通过大量未标注数据中进行大规模训练,从而迅速挖掘大量领域知识。然后经过少量小参数的微调(delta-tuning),快速适配大模型下游任务。 近年来,盘古、孟子、文心、哪吒、M6-OFA、PLUG等预训练大模型通过开源项目不断累积,获得了行业内积极的认可。同时也有大模型开源项目开始尝试商业拓展,探索模型即服务(MaaS)的模式。 AI算法模型(库) 机器学习&深度学习平台/数据库 发起机构分布:AI算法模型类项目发起机构集中在科技厂商与科研院所两大类,两者的开源路线有所不同。 •科技厂商在开源算法和模型类项目均有布局,如腾讯同时开源DBG算法和MedicalNet模型。 O3 应用底座 「下游任务微调」使得AI可以在小范围调整后有效支撑不同场景的落地。 •而伴随着对预训练大模型的价值认同,科研院所开始主要参与预训练大模型开源项目的建设,同时也存在科技厂商与科研院所联合开发模型类开源项目的情况,例如华为和鹏城实验室联合开发的鹏城.盘古等。 O1 价值能力泛化 追求「预训练大模型+下游任务微调」 能够一定程度上摆脱传统AI能力 碎片化的束缚。 O2 模态融合 能够集成自然语言处理、计算机视觉等多个AI领域的多项技术,实现多种模态(文本、图像等)数据融合 AI算法模型(库) 机器学习/深度学习平台&数据库 定义:机器学习/深度学习平台是集成了硬件资源,计算框架、存储、数据及模型管理、资源调度等功能,覆盖模型开发、训练、推理 及部署全流程的综合平台。 特征: 机器学习/深度学习平台开源项目通常在计算框架外开源各类官方工具组件。同时,在开源版本外,往往会设立商用平台进行商业拓展,例如百度开源PaddlePaddle飞桨平台与商用开发平台EasyDL。 AI算法模型(库) 机器学习/深度学习平台&数据库 发起机构分布:AI平台类开源项目发起机构集中在科技厂商与高校科研院所两大类。 •科技厂商出于后续商业化的目的,在算力资源、开发组件等生态建设方面较为完善。发展路线有两种,主要以AI框架项目作为基础,拓展平台类开源项目,如飞桨PaddlePaddle与昇思MindSpore;也存在立足算法模型项目拓展平台类项目的路线,如Alink。 •高校科研院所虽然存在项目开源项目,如之江天枢,但在社区活跃度方面,仍有较大提升空间。 易用性 价值提供各类官方工具 追求组件、模型库 灵活性 通过不同算力、框架等组合,灵活适配不同的开发训练需求 兼容性 兼容主流计算框架、数据格式、算法等 安全性 满足代码安全与数据安全等 生态图谱厂商洞察 Gitee平台托管的开源项目 Gitee指数 94 (镜像) Gitee指数 61 (镜像) Gitee指数 18 (镜像) Gitee指数Gitee指数 13 3 Gitee指数TOP5 12 ·数据来源:本数据来自于Gitee官网(2023年1月)。 “ InfoQ开源项目指数数据说明 InfoQ开源项目指数说明 一级指标 二级指标 权重 代码健康(40%) 代码复制(Fork) 10% 已修复代码不足(ClosedIssue) 10% 项目更新申请(PullRequest) 5% 已完成项目更新申请 (ClosedPullRequest) 15% 社区活跃(60%) 协作影响力 10% 项目荣誉星(Star) 10% 社区贡献量 20% 社区贡献者 20% •对于开源项目的评价,代码和社区是两项最直接评价指标。 •代码的健康度体现为社区成员不断地修复和更新代码,形成研发价值的指数级增长;代码健康指标中选取的数据维度来自开源项目在GitHub中的公开数据。 •社区活跃是保证开源价值最大化的根本,被开源世界公认的社区价值是评价开源项目最主要的要素,本次研究将其权重赋值超过代码健康;InfoQ研究中心认为,社区活跃价值整体评估高于代码健康价值。 •社区活跃中主要数据也来自于GitHub的公开数据;其中协作影响力数据来自于X-lab研发的openleaderboard中的协作影响力数据。 •所有数据的采集时间均为2023年1月,在未来,随着时间的推移,数据也会呈现变化。 13 InfoQ指数 64.71 InfoQ指数 26.13 InfoQ指数 25.84 InfoQ指数 22.97 InfoQ指数 15.71 InfoQ指数 10.50 InfoQ指数 10.17 InfoQ指数 10.04 InfoQ指数 9.98 InfoQ指数 5.91 InfoQ开源项目指数TOP10 14 ·数据来源:Github与openleaderboard各项目2023年1月数据。 2020.3 MindSpore正式开源 2020.9 MindSpore1.0全场景AI框架 2021.9 MindSpore1.5原生支持大模型 2022.4 MindSpore1.8全面提升易用性 2022.7 MindSpore昇思大模型平台上线 2022.11 MindSpore2.0AI融合框架 打造一站式大模型平台 昇思大模型平台,打造大模型开源生态,集算法选型、创意分享、模型试验和大模型在线体验为一体的AI学习与实践社区 提供极简易用的开发套件 TinyMS,由开源运营团队打造的技术产品,提供从数据准备到模型部署全流程的极简易用的高阶API封装工具 保持内容运营的技术专业性 核心运营团队必须懂技术,同时运营团队所提炼的可传播性内容必须基于昇思MindSpore主要技术特性,避免过度营销 社区基础模型创新运作实践懂技术的运营团队构建懂开发者的社区 社区活跃度 8700+ 370万+ 290+ 6.4万+ 400个+ 28个 369万+ 5500+ 社区贡献者 社区用户 单位会员 PullRequest 模型 SIG组 下载量 服务企业 15 夯实全场景AI能力,全面提升易用性融合AI与HPC,加速应用创新 跨域大规模协同融合计算统一微分 高效联邦学习,支持大模型跨域并行加密训练;千万端侧设备协同学习 端边云全场景部署 科学计算加速库,支持250+科学计算API自动并行,开发效率提升2倍+ 自动微分引擎,自持高阶高维混合微分,性能加速5倍+ 统一API,模型格式免转换,支持7种主流OS,16种硬件 流体仿真套件 New 电磁仿真套件升级 分子模拟套件升级 动态图全面支持 20X 10X99.99% 动态图优先,兼顾灵活性与性能,性能提升2~5倍 机翼气动仿真效率 米级阵列天线仿真速度 自然界蛋白质预测范围 人才培养 开源力量 基础构建AI生态 布局原生AI生态 科研创新 领跑前沿 借助与教育部合作的“智能基座”和“沃土计划”,在高校中开设昇思的课程,培养昇思的开发人才。经过两年的努力,昇思的课程已经开设到100多所高校,今年将会超过200所 联合启智社区举办“OpenI启智&MindSpore集结号”,为两大开源社区贡献昇思的模型,构筑昇思的技术基础 联合CAAI设立顶会论坛基金项目,鼓励广大科研工作者创新,基于昇思发表顶级会议论文 联合全球顶尖的科研专家、学者,洞察AI前沿发展趋势,布局昇思的差异化竞争力,如大模型、AIforScience、AI安全等等 PaddlePaddle开源 核心框架v1.0发布 中文名“飞桨”发布第一届WAVESUMMIT 深度学习开发者峰会 量桨-量子机器学习平台发布 飞桨框架v2.0正式版发布 飞桨框架v2.4发布 企业生态 发展企业生态伙伴,既有中小企业借助飞桨开发大量不同类型的技术服务型应用或模型,又有大型企业借助飞桨建设行业平台 AI快车道、AI私享会、AICA首席AI架构师培 养计划等进阶式培训,助力企业培养产业AI应用人才 服务超过20万家企事业单位 教育生态 飞桨携手高校,围绕学习、实践、认证、比赛、就业、奖学金等环节,提供教学资源、工具与平台(AIStudio) 和教学硬件教具支持等,多维度支撑 AI人才培养 科研生态 硬件生态 社区数据 78万+ 累计提交Commits 12个 PPSIG 1.67万+ PR/Issue的贡献者 15.5万+ Star 67万+ AI模型 535万+ 开发者 超过40家国内外硬件厂商与飞桨深度融合优化,基本覆盖国内外主流芯片 飞桨“硬件生态共创计划”成员已增加至29家,同时已联合13家硬件伙伴发布飞桨生态发行版 社区生态 飞桨以PPDE(飞桨开发者技术专家)、PFCC(飞桨框架贡献者俱乐部)、PPSIG(飞桨特殊兴趣小组)、飞桨领航团等主要组织形式,同时联合其他开源社 区共建深度学习开源社区生态 师资培训覆盖全国超过1044所高校的4300多位老师,400多所高校开设飞桨学分课 飞桨AIforScience共创计划:已发布赛桨PaddleScience、螺旋桨PaddleHelix、量桨PaddleQuantum等开源工具,广泛支持AI+ 计算流体力学、生物计算、量子计算等前沿方向的科研和产业应用 飞桨是深度学习技术及应用国家工程研究中心的核心成果 PaddlePaddle开源 产业与技术双轮驱动 核心框架v1.0发布 中文名“飞桨”发布第一届WAVESUMMIT 深度学习开发者峰会 量桨-量子机器学习平台发布 飞桨框架v2.0正式版发布 飞桨框架v2.4发布 飞桨从实际产业需求出发,通过通用化设计嵌入框架,形成满足产业级业务需求的深度学习框架和赋能平台 飞桨开源开放代码和核心能力,在产业应用过程中不断验证和优化技术核心能力,进一步提升技术竞争力 多层次产品结构降低门槛提升开发者体验: 通过核心框架+基础模型库+开发套件+工具组件,以及企业版开发平台,满足企业低成本开发和快速集成的需求,推动产业应用快速落地 飞桨框架技术亮点: •框架开发便捷高效 动静统一的框架,动态图编