您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[极客传媒]:中国开源生态图谱:人工智能领域 - 发现报告
当前位置:首页/其他报告/报告详情/

中国开源生态图谱:人工智能领域

2023-04-15-极客传媒李***
中国开源生态图谱:人工智能领域

1中国开源⽣生态系列列图谱——⼈人⼯工智能领域 ⽣生态图谱解读 中国⼈人⼯工智能开源领域⽣生态图谱开源基⾦金金会开源产业联盟代码托管平台开发者社区AI算法模型(库)AI引擎/框架数据集实验室/研究院机器器学习&深度学习平台/数据库4 定义&分类:AI框架是⼈人⼯工智能基础软件的核⼼心,在整个⼈人⼯工智能体系中起着“承上启下”的作⽤用。AI框架向下调⽤用底层硬件计算资源,为算法模型⽣生成、训练和推理理部署提供良好的硬件性能基础,向上承接AI算法模型搭建,⽀支撑AI⼯工程和产业应⽤用。板块特征:⼈人⼯工智能框架类开源项⽬目AI引擎/框架01壁垒⾼高AI框架的构建需要时间、资⾦金金和AI底层技术⼈人才,包括AI算法、编译体系、通讯原理理、硬件结构、API体系等,包括运维和部署02产研应⽤用国产开源AI框架在赋能产业应⽤用和科学研究中发挥着越来越重要的作⽤用。03⽣生态发展框架与硬件、开发语⾔言、开发环境以及软件之间的协同、⼯工具组件以及产业应⽤用的配套发展,包括相关⼈人才的培养都是开源AI框架项⽬目需要重点考虑的因素5 ⼈人⼯工智能框架类开源项⽬目发起机构分布:AI框架开源项⽬目发起机构集中在科技⼚厂商与⾼高校科研院所两⼤大类。•其中科技⼚厂商前期主要满⾜足⾃自身⼴广泛的AI应⽤用需求,后期逐渐向外拓拓展服务,如华为MindSpore、百度PaddlePaddle、腾讯TNN、阿⾥里里MNN、字节跳动BytePS以及⼩小⽶米Mace等。•值得关注的是,近年年来,⾼高校科研院所开始逐渐重视AI框架的研发,但在开源后的资源维护和产业应⽤用拓拓展模式上,国内⾼高校科研院所仍在探索中,如清华⼤大学发起的计图(Jittor)。AI引擎/框架6更更可⽤用更更易易⽤用更更安全更更⾼高效价值追求 ⼈人⼯工智能算法模型类开源项⽬目发展特征:为了解决之前AI模型的扩展性和通用性不高,以及依赖人工数据标注和标注数据量的问题,基础模型/大规模预训练模型提出了一种基于自监督学习的“预训练大模型+下游任务微调”的可行方案。这种模型可以在少量标注数据的基础上,通过大量未标注数据中进行大规模训练,从而迅速挖掘大量领域知识。然后经过少量小参数的微调(delta-tuning),快速适配大模型下游任务。近年来,盘古、孟子、文心、哪吒、M6-OFA、PLUG等预训练大模型通过开源项目不断累积,获得了行业内积极的认可。同时也有大模型开源项目开始尝试商业拓展,探索模型即服务(MaaS)的模式。AI算法模型(库)7机器器学习&深度学习平台/数据库 ⼈人⼯工智能算法模型类开源项⽬目发起机构分布:AI算法模型类项⽬目发起机构集中在科技⼚厂商与科研院所两⼤大类,两者的开源路路线有所不不同。•科技⼚厂商在开源算法和模型类项⽬目均有布局,如腾讯同时开源DBG算法和MedicalNet模型。•⽽而伴随着对预训练⼤大模型的价值认同,科研院所开始主要参与预训练⼤大模型开源项⽬目的建设,同时也存在科技⼚厂商与科研院所联合开发模型类开源项⽬目的情况,例例如华为和鹏城实验室联合开发的鹏城.盘古等。AI算法模型(库)机器器学习&深度学习平台/数据库8能⼒力力泛化O1「预训练⼤大模型+下游任务微调」能够⼀一定程度上摆脱传统AI能⼒力力碎⽚片化的束缚。模态融合O2能够集成⾃自然语⾔言处理理、计算机视觉等多个AI领域的多项技术,实现多种模态(⽂文本、图像等)数据融合应⽤用底座O3「下游任务微调」使得AI可以在⼩小范围调整后有效⽀支撑不不同场景的落地。价值追求 ⼈人⼯工智能平台类开源项⽬目9定义:机器器学习/深度学习平台是集成了了硬件资源,计算框架、存储、数据及模型管理理、资源调度等功能,覆盖模型开发、训练、推理理及部署全流程的综合平台。特征:机器器学习/深度学习平台开源项⽬目通常在计算框架外开源各类官⽅方⼯工具组件。同时,在开源版本外,往往会设⽴立商⽤用平台进⾏行行商业拓拓展,例例如百度开源PaddlePaddle⻜飞桨平台与商⽤用开发平台EasyDL。机器器学习/深度学习平台&数据库AI算法模型(库) ⼈人⼯工智能平台类开源项⽬目10发起机构分布:AI平台类开源项⽬目发起机构集中在科技⼚厂商与⾼高校科研院所两⼤大类。•科技⼚厂商出于后续商业化的⽬目的,在算⼒力力资源、开发组件等⽣生态建设⽅方⾯面较为完善。发展路路线有两种,主要以AI框架项⽬目作为基础,拓拓展平台类开源项⽬目,如⻜飞桨PaddlePaddle与昇思MindSpore;也存在⽴立⾜足算法模型项⽬目拓拓展平台类项⽬目的路路线,如Alink。•⾼高校科研院所虽然存在项⽬目开源项⽬目,如之江天枢,但在社区活跃度⽅方⾯面,仍有较⼤大提升空间。易易⽤用性提供各类官⽅方⼯工具组件、模型库灵活性通过不不同算⼒力力、框架等组合,灵活适配不不同的开发训练需求兼容性兼容主流计算框架、数据格式、算法等安全性满⾜足代码安全与数据安全等机器器学习/深度学习平台&数据库AI算法模型(库)价值追求 ⽣生态图谱⼚厂商洞洞察 Gitee平台托管的开源项⽬目12Gitee指数TOP 5Gitee指数94Gitee指数61Gitee指数18Gitee指数13Gitee指数3·数据来源:本数据来⾃自于Gitee官⽹网(2023年年1⽉月)。(镜像)(镜像)(镜像) InfoQ开源项⽬目指数数据说明13一级指标二级指标权重代码健康(40%)代码复制(Fork)10%已修复代码不足(ClosedIssue)10%项目更新申请(PullRequest)5%已完成项目更新申请(ClosedPullRequest)15%社区活跃(60%)协作影响力10%项目荣誉星(Star)10%社区贡献量20%社区贡献者20%•对于开源项⽬目的评价,代码和社区是两项最直接评价指标。•代码的健康度体现为社区成员不不断地修复和更更新代码,形成研发价值的指数级增⻓长;代码健康指标中选取的数据维度来⾃自开源项⽬目在GitHub中的公开数据。•社区活跃是保证开源价值最⼤大化的根本,被开源世界公认的社区价值是评价开源项⽬目最主要的要素,本次研究将其权重赋值超过代码健康;InfoQ研究中⼼心认为,社区活跃价值整体评估⾼高于代码健康价值。•社区活跃中主要数据也来⾃自于GitHub的公开数据;其中协作影响⼒力力数据来⾃自于X-lab研发的openleaderboard中的协作影响⼒力力数据。•所有数据的采集时间均为2023年年1⽉月,在未来,随着时间的推移,数据也会呈现变化。“InfoQ开源项⽬目指数说明 GitHub平台托管的开源项⽬目InfoQ开源项⽬目指数TOP 10InfoQ指数64.71 InfoQ指数26.13InfoQ指数25.84InfoQ指数22.97 InfoQ指数15.71InfoQ指数10.50InfoQ指数10.17InfoQ指数10.04 InfoQ指数9.98InfoQ指数5.9114· 数据来源:Github与openleaderboard各项⽬目2023年年1⽉月数据。 昇思MindSpore:⽤用技术内容连接社区的AI开源社区370万+社区⽤用户8700+社区贡献者6.4万+PullRequest400个+模型5500+服务企业28个SIG组369万+下载量量社区活跃度290+单位会员2020.3MindSpore正式开源2020.9MindSpore1.0全场景AI框架2021.9MindSpore1.5原⽣生⽀支持⼤大模型2022.4MindSpore1.8全⾯面提升易易⽤用性2022.11MindSpore2.0AI融合框架2022.7MindSpore昇思⼤大模型平台上线懂技术的运营团队构建懂开发者的社区打造⼀一站式⼤大模型平台昇思⼤大模型平台,打造⼤大模型开源⽣生态,集算法选型、创意分享、模型试验和⼤大模型在线体验为⼀一体的AI学习与实践社区提供极简易易⽤用的开发套件TinyMS,由开源运营团队打造的技术产品,提供从数据准备到模型部署全流程的极简易易⽤用的⾼高阶API封装⼯工具保持内容运营的技术专业性核⼼心运营团队必须懂技术,同时运营团队所提炼的可传播性内容必须基于昇思MindSpore主要技术特性,避免过度营销社区基础模型创新运作实践15 昇思MindSpore:使能科研创新与产业应⽤用,⾯面向多重领域⽤用户夯实全场景AI能⼒力力,全⾯面提升易易⽤用性融合AI与HPC,加速应⽤用创新跨域⼤大规模协同⾼高效联邦学习,⽀支持⼤大模型跨域并⾏行行加密训练;千万端侧设备协同学习融合计算统⼀一微分科学计算加速库,⽀支持250+科学计算API⾃自动并⾏行行,开发效率提升2倍+⾃自动微分引擎,⾃自持⾼高阶⾼高维混合微分,性能加速5倍+机翼⽓气动仿真效率20X流体仿真套件⽶米级阵列列天线仿真速度电磁仿真套件⾃自然界蛋⽩白质预测范围分⼦子模拟套件New端边云全场景部署统⼀一API,模型格式免转换,⽀支持7种主流OS,16种硬件动态图全⾯面⽀支持动态图优先,兼顾灵活性与性能,性能提升2~5倍10X99.99%升级升级⼈人才培养Ø借助与教育部合作的“智能基座”和“沃⼟土计划”,在⾼高校中开设昇思的课程,培养昇思的开发⼈人才。经过两年年的努⼒力力,昇思的课程已经开设到100多所⾼高校,今年年将会超过200所基础构建AI⽣生态科研创新Ø联合CAAI设⽴立顶会论坛基⾦金金项⽬目,⿎鼓励⼴广⼤大科研⼯工作者创新,基于昇思发表顶级会议论⽂文布局原⽣生AI⽣生态领跑前沿Ø联合全球顶尖的科研专家、学者,洞洞察AI前沿发展趋势,布局昇思的差异化竞争⼒力力,如⼤大模型、AIforScience、AI安全等等开源⼒力力量量Ø联合启智社区举办“OpenI启智&MindSpore集结号”,为两⼤大开源社区贡献昇思的模型,构筑昇思的技术基础16 ⻜飞桨PaddlePaddle:产学研⽤用全⽅方位共建中国AI技术⽣生态社区数据2016.8PaddlePaddle开源2019.4中⽂文名“⻜飞桨”发布第⼀一届WAVESUMMIT深度学习开发者峰会2020.5量量桨-量量⼦子机器器学习平台发布2018.10核⼼心框架v1.0发布2021.3⻜飞桨框架v2.0正式版发布2022.11⻜飞桨框架v2.4发布67万+AI模型78万+累计提交Commits1.67万+PR/Issue的贡献者535万+开发者12个PPSIG15.5万+Star教育⽣生态Ø⻜飞桨携⼿手⾼高校,围绕学习、实践、认证、⽐比赛、就业、奖学⾦金金等环节,提供教学资源、⼯工具与平台(AIStudio)和教学硬件教具⽀支持等,多维度⽀支撑AI⼈人才培养Ø师资培训覆盖全国超过1044所⾼高校的4300多位⽼老老师,400多所⾼高校开设⻜飞桨学分课社区⽣生态Ø⻜飞桨以PPDE(⻜飞桨开发者技术专家)、PFCC(⻜飞桨框架贡献者俱乐部)、PPSIG(⻜飞桨特殊兴趣⼩小组)、⻜飞桨领航团等主要组织形式,同时联合其他开源社区共建深度学习开源社区⽣生态企业⽣生态Ø发展企业⽣生态伙伴,既有中⼩小企业借助⻜飞桨开发⼤大量量不不同类型的技术服务型应⽤用或模型,⼜又有⼤大型企业借助⻜飞桨建设⾏行行业平台ØAI快⻋车道、AI私享会、AICA⾸首席AI架构师培养计划等进阶式培训,助⼒力力企业培养产业AI应⽤用⼈人才Ø服务超过20万家企事业单位硬件⽣生态Ø超过40家国内外硬件⼚厂商与⻜飞桨深度融合优化,基本覆盖国内外主流芯⽚片Ø⻜飞桨“硬件⽣生态共创计划”成员已增加⾄至29家,同时已联合13家硬件伙伴发布⻜飞桨⽣生态发⾏行行版科研⽣生态Ø⻜飞桨AIforScience共创计划:已发布赛桨PaddleScience、螺旋桨PaddleHelix、量量桨PaddleQuantum等开源⼯工具,⼴广泛⽀支持AI+计算流体⼒力力学、⽣生物计算、量量⼦子计算等前沿⽅方向的科研和产业应⽤用Ø⻜飞桨是深度学习技术及应⽤用国家⼯工程研究中⼼心的核⼼心成果17 ⻜飞桨PaddlePaddle:⾼高效与便便捷开发,产业与技术双轮驱动•框架开发便便捷⾼高效动静统⼀一的框架,动态图编程调试转静态图

你可能感兴趣

hot

中国开源生态图谱2022——数据库领域

信息技术
InfoQ研究中心2022-12-16
hot

中国开源生态图谱2023——云原生领域

信息技术
InfoQ研究中心2023-03-29
hot

中国开源生态图谱2022——操作系统领域

信息技术
InfoQ研究中心2022-12-16
hot

中国开源生态系列图谱——前端领域

信息技术
InfoQ研究中心2023-08-15