!"ß$%&'()*+,-./0123 上海白玉兰开源开放研究院上海交通大学人工智能研究院 2022年8月 ƒ#$% 数字经济时代正在拉开帷幕,数字化转型成为时代趋势,人工智能无疑是这个时代驱动数字化转型的重要技术,对数字经济发展将发挥重大而深远的影响。开源开放是人工智能发展的全球共识,其中,开放数据具有举足轻重的基础性作用。弘扬开源精神,打造有利于人工智能创新发展的开源生态,是人工智能基础设施建设的重要抓手和必由之路。建设并最大化人工智能基础设施的开放创新赋能作用是一项系统工程,需要从人才、数据、算力、工程和运营等多维度多环节协同发力、同步推进,充分发挥各利益相关方的积极性和主观能动性。 梅宏2022年8月31日 &ę 作为数字经济时代的重要新型基础设施,人工智能基础设施的发展水平已经成为衡量国家科技创新实力的重要指标之一,相关产业也将成为全球数字化经济发展的核心推动力。2017年7月,国务院制定并发布了《新一代人工智能发展规划》,将人工智能技术上升到国家战略层面,积极推动中国产业界构建人工智能在全球范围内的先发优势。在过去的10年间,人工智能理论和工程化产品日渐成熟,在新一轮科技革命和产业变革的大背景下,人工智能与产业深度融合,大量的算法、产品和方案落地,进一步释放数字化转型倍增效应。“十四五”规划和2035远景目标提出要以高质量发展为主题,以深化供给侧结构性改革为主线,以改革创新为根本动力,以满足人民日益增长的美好生活需要为根本目的,统筹发展和安全,加快建设现代化经济体系。这就要求人工智能技术进一步加快作用于国民经济活动,持续提高生产力水平,为高质量经济发展提供技术支撑。 通过完善数字化技术和支持能力,在此之上构建智能化商业模式是数字化转型的核心目标,人工智能技术对于完成这一目标起到重要作用。另一方面,人工智能技术落地的问题上,存在着诸多障碍,技术价值贬值和可行性困难在具体市场和应用场景中时有发生。时值“十四五”开端的当下,梳理当前人工智能软件基础设施建设,了解现状,发掘问题,参考优秀案例,尝试找出困境突破口,对于推进人工智能基础设施落地并促进产业转型升级具有重要参考意义,也是对高质量发展要求的回应。 本报告认为,人工智能软件基础设施建设不仅需要囊括算力要素、数据要素作为核心底层架构,更应当将人才培养、工程开发、运营推广作为发展模块,从而可以更好实现人工智能作为基础设施的赋能作用。因此,本报告重点从人才、数据、算力、工程和运营五个维度进行了阐述。人才层面,展现我国人工智能开发者分布现状及提出人才培养的可行方式。数据层面,数据治理涉及的技术路线、法律法规、企业战略选择,以及产业生态演变趋势。算力层面,异构计算及其应用场景特别是大算力场景逐渐清晰,算力与软件算法协同优化将是未来发展重点。工程层面,在异构计算范式要求下,人工智能开发涉及的软硬件环境愈加复杂,借由人工智能开发平台和软件框架降低开发运维成本将是可行方向。运营层面,在复杂的商业化环境中,软件基础设施类型项目的推广依赖有效的开发者关系运营加持。 总体来看,本报告认为人工智能赋能传统行业落地降本增效,是人工智能软件基础设施高质量发 展的重要内涵。这要求人工智能人才、基础软件框架、数据治理、工程落地、基础软件社区生态等不同维度的协同发展。由于目前人工智能发展速度空前之快,与产业融合态势也在不断变化,我们对于人工智能、对于人工智能软件基础设施的理解和认识还有待进一步深化,不足之处,欢迎指正批评。 金耀辉 上海交通大学人工智能研究院教授、博士生导师、上海白玉兰开源开放研究院执行院长 堵俊平 华为计算开源业务总经理 陈葆立 英特尔数据中心与人工智能集团副总裁兼中国区总经理 张晴晴 MagicData创始人兼CEO 马艳军 百度AI技术生态总经理 )*+,-. 上海白玉兰开源开放研究院携手上海交通大学人工智能研究院、木兰开源社区、OpenVINO中文社区、飞桨社区、亚马逊云科技、英特尔、阿里云、腾源会、微软Reactor、昇思MindSpore社区、FATE社区、BigDL社区、MagicHub社区、Ray中文社区、ModelArts社区、OpenMLDB社区、语音之家、希尔贝壳、Zilliz、思贤科技、CSDN、InfoQ、思否、稀土掘金、亿欧咨询、示说、GDG上海、极术社区、SeaTunnel社区、DolphinScheduler社区、Juicedata社区、开放群岛开源社区(排名不分先后)等30余家人工智能技术社区、数据社区及垂直媒体,共同参与本项目,围绕定量和定性分析,希望从中国人工智能开发者的视角,剖析人工智能技术在不同行业与场景中深耕落地现状和趋势,探索人工智能基础设施高质量发展之路。 本项目从定性和定量两个部分开展研究。定性部分在桌面研究的基础上,深度访谈二十余位在中国企业就职的中高层技术人员,上至CIO/CTO,下至AI开发团队负责人/总架构师等,覆盖了互联网、金融、自动驾驶、新能源、智能制造等行业,访谈总时长超过30小时。定量调研共收集问卷748份中国的AI开发者问卷,通过各个维度筛选出实际有效问卷近400份,涵盖AI应用挑战与趋势、AI开发者现状、开发者触媒方式与AI产品运营、基础设施平台认知等维度。在此基础上剖析了不同维度上AI软件基础设施建设的若干经典案例,供各方参考交流。 人工智能应用是一个系统化工程,是对人才、基础软硬件设施、算法、数据、项目管理等等的全方位挑战。本报告将围绕人才、数据、算力、工程、基础软件设施产品运营及几个维度展开论述,其中诸多内容得到了相关社区和企业的大力支持、建议和供稿,并采用远程协作编辑的方式完成。案例部分均由相关企业和社区提供材料编撰,意在展示优秀方案,加深读者了解相关的背景和优秀实践参考。 /0123456789: 上海白玉兰开源开放研究院、上海交通大学人工智能研究院、木兰开源社区、示说、开放数据中国、华为、英特尔、百度、阿里云、腾讯、亚马逊云科技、第四范式、爱数智慧科技、亿欧咨询、Juicedata社区、FATE开源社区、开放群岛(OpenIslands)开源社区 /0;<3456789: 程浩、吴格尔、黄蕾宇、刘洋、高丰、黄之鹏、胡晓曼、张钱峰、庹元元、吴佳聪、林旅强、许银、杜伟、陆礼明、任毅恒、颜历、袁超、张晶、赵晓涛、王珅、吴珊珊、杨亦诚、龚奇源、王辉、陈宗珩、黄晴淇、夏修齐、王潇蔓、徐鸣、张楠、周晓、信雪蕊、曹倩芸、万慧、陆雨霄、吴彬、张海宁、朱雯浩、马轩、牛丛丛、廖玉梅、李雪晴、陈宁、夏展望 *= 一、人才篇8 (一)如何定义人工智能人才8 (二)人才规模10 (三)人才分布10 (四)人才培养13 二、数据篇16 (一)数据基础设施建设16 (二)数据治理20 (三)数据采集与标注22 (四)公共数据集的积极意义23 (五)开放数据许可协议25 三、算力篇28 (一)AI计算芯片28 (二)AI训练29 (三)AI推理31 (四)软硬件协同优化33 四、工程篇36 (一)AI训练框架36 (二)AI部署与推理37 (三)AI开发平台39 (四)基础模型41 五、运营篇47 (一)市场品牌营销48 (二)技术文档撰写49 (三)技术社区51 (四)技术布道52 六、展望56 主要参考文献及来源57 >?;@A 人工智能技术作为“未来数十年”最先进的生产力代表之一,正逐渐渗透到各行各业,推动数字经济高速发展,预期未来十年AI相关解决方案市场的复合增长率将保持在65%,并于2027年达到万亿美元。据权威专家估计,目前中国跨学科复合型人工智能行业人才缺口高达500万,人才短缺现象会因为需求对人才标准要求之高而将长期存在。 !"3%&'()*+(, 典型AI开发业务流程与传统软件项目开发流程类似,都是系统工程,而非仅仅是算法模型,它由多个岗位分工明确的工程师共同参与。如图1“V”字开发流程所示: !"#$%&' )*#+,AI/01234 相比传统软件项目研发,AI项目的研发技术人员涉及的岗位职责更多,除了包含软件项目经理、产品经理、测试、实施等人员配备外,还需配备的核心岗位如表1所示: 5*#AI6789:;<=>==?@A BCDE8 FGHI8 FG128 AIJK12 LMNO12 AIPQ128 RS;8 AIBCTUVWX6 AIFGHIY AIFGZ4[ AIJK12Z4[ AI\]H2Z4[ AI^_12Z4[ RS`a% bcBCd eFfghV)i)jFGHIY eFfghFGZ4[ AIJKkl12Z4[ AImnH2Z4[ AIkl12Z4[ oRSZ4[ BCpqrTV6ZstBCuv6 wxayHIY wxayFGZ4[ AIJK12nz[ AIPQ[4|]12Z4[ AI~l12Z4[ RSÖZ4[ bcnz[ ÄÅqFGHIYVÇÉ|]ÑEFGHIY ÇÉ|]ÑEFGZ4[ AIJKÖÜ12Z4[ AIáàH2Z4[ AIâÜ12Z4[ ää AIst|ãBCTU fåayHIY |ãçéFGZ4[ AIJKâÜ12Z4[ èutAIPQnzH2Z4[ AIëíZ4[ 6ZstBCuv6 ìç)îFGHIY ìç)îFGZ4[ ää AI[ïåH2Z4[ ää 6ZstHIññó òôFGHIY ää ää ää ää !"#öõuúHÖùE 核心岗位包括7大类:技术管理岗位、算法研究岗位、算法开发岗位、应用开发、平台开发、基础设施开发,以及数据类相关岗位。不同企业、组织、产品或者技术团队,由于客观场景需求不同,对于不同岗位人员配比不完全相同,我们也将7大类岗位划分为三个层次: 第一层次:技术管理岗位。该岗位要求具有AI思维的管理者,对其综合能力要求相对较高,需要在算法、数据、系统、软硬件基础设施、软件工程等领域都有所涉猎,并能够结合场景实际需求,用最具效益的方式推动相关产品或者项目落地。 第二层次:工程应用开发岗。此类人才具备行业知识,知道如何结合场景和需求,采用合适的技术、算法、工程来完成实际应用场景落地,属于非常稀缺的行业复合型技术人才。 第三层次:算法研究和基础设施开发岗位。由于该岗位对专业性要求极强,导致人才非常稀缺。 同时考虑到商业化周期通常较长,早期投资非常大,有此类岗位设置的组织往往属于行业头部研究所和企业,一些企业甚至出现薪资上不封底的口号来招募人才。 !.3(,/0 人才是推动人工智能产业高质量发展最为重要因素。人才的规模、质量以及结构分布决定了我国人工智能领域在全球范围内的竞争潜力。为了更加精确定义AI开发者人才,我们根据岗位职者简单划分为两大类: 一是核心AI开发者。此类人才负责核心算法模型的设计和研发。如:算法研究员、算法工程师、 AI框架开发工程师等。 二是相关AI开发者。此类人才把控产品需求,将人工智能算法及各项技术(例如机器学习、自然语言处理、智能语音、计算机视觉等)与客户需求相结合,实现相关应用工程化落地的岗位。如:产品经理、AI应用开发工程师、系统架构师、技术管理等。 调研中,我们将中国AI开发者限定为:在中国大陆地区工作、所工作的组织大于50名员工并有实际工作经验的开发者,结合国家统计局发布的2021年相关行业企业数量,我们大致估算出核心开发 者数量约为40万,AI相关开发者约为180万。 !"#õuHI:û !13(,23 )=#ü†AI12°¢£ 人才分布与各地的经济活跃程度息息相关,一方面体现了各地区对于人工智能领域人才和企业的聚集效应,另外一方面也与应用场景端需求旺盛程度有关。 1.区域分布 !"#§•úH )¶#AI12°ß®:© 根据定量调研国内人才工作地,人工智能开发者人才主要分布在长三角、京津冀、和珠三角地区。这三个地区是产业人才的主要聚集地,也是当前人工智能发展主要区域,体现出企业人才需求和人才职业发展意向均列全国前列。 2.性别分布 !"#§•úH )™#AI12°ué:© 人工智能开发者的性别分布上,明显男性占据多数(8