Gartner的研究 支持高级分析和AI计划的角色和技能 Zain汗2022年8月2 支持高级分析和AI计划的角色和技能 已发布2022年8月2日-IDG00770015-44分钟阅读由分析师 :ZainKhan 计划:面向技术专业人员的分析和人工智能 数据和分析技术专业人员需要定义自己的角色,并作为AI团队的一部分一起工作。本研究旨在定义核心的AI和ML角色、技能和职责,从而帮助将正确的技能与高级分析计划中所需的角色保持一致。 概述 重要发现 ■人工智能的扩散和持续发展创造了对角色和功能的需求,以帮助应对数据复杂性和访问、ML模型所有权、公平性和可解释性方面的挑战。 ■在没有中央所有权和管理的情况下孤立工作的高级分析专业人员缺乏战略洞察力,从而限制了AI解决方案的有效性。 ■“一次构建,即忘记”的方法导致无法保留关键的工程设计模式和最佳实践,从而限制了可重用性并阻碍了组织内的AI成熟度。 建议 希望在高级分析领域工作的技术专业人员应: ■专注于获取和加强有关数据管理和AI用例确定的技能,以克服AI实施中面临的最紧迫挑战。 ■探索模型验证者和模型所有者的新兴角色和关键职责,并希望获得模型监控、测试、可解释性和所有权方面的技能。 ■定义适合ML开发生命周期每个阶段的关键角色,使业务目标与长期ML增长保持一致,并作为AI 团队的一部分共同努力,在高级分析实施中取得更大的战略成功 战略规划设想 到2025年,数据科学家的稀缺将不再阻碍数据科学和机器学习在组织中的采用。 到2024年,40%的组织将提供或赞助专门的数据科学教育,以加速技能提升计划,高于2021年的5%。 到2023年,机器学习工程师将成为AI/ML领域增长最快的角色,ML工程师的空缺职位是数据科学家的一半(50%),高于2019年的不到10%。 分析 介绍 人工智能(AI)正在迅速成熟。根据Gartner在2021年组织调查中的AI,AI使用率从2019年的35%增加到2021年的52%。然而,数据复杂性和可访问性、衡量人工智能成功的困难以及员工缺乏技能仍然是人工智能实施的最大障碍(见图1)。因此,对高技能和多样化AI角色的需求继续飙升。 下载所有图像从这个材料 图1所示。前三人工智能实现的障碍 图1所示的技术障碍构成了希望从事人工智能计划的数据和分析专业人员的增长和进步的基本领域。这项研究定义了ML/AI领域技术专业人员的核心和新兴角色和技能。ML是AI的一个子集,是创建AI解决方案的主要方法。有关AI、ML和深度学习之间差异的更多信息,请阅读超越机器学习和利用其他AI方法 。 本文中讨论的角色包括数据科学家、公民数据科学家、ML工程师、ML架构师、模型所有者和模型验证者。应该指出的是,这些角色并非详尽无遗,而是关键角色和新兴角色的核心组合,整体AI解决方案也需要其他专业人士的投入。有关更多详细信息,请阅读什么是数据和分析的必备角色? 将首先讨论数据科学家,公民数据科学家,ML工程师和ML架构师的角色。它们是AI领域当前的关键角色 ,而模型所有者和模型验证者是关键的新兴角色,将在后面讨论。图2显示了如何将这些角色分配给典型ML开发工作流中的每个阶段。 图2。毫升管道和角色 团队应该专注于协同作用,而不仅仅是其各个部分的总和。公民数据科学家可以与ML模型所有者一起进行业务用例评估,并经常使用自助服务SaaS平台创建原型和概念证明(POC)。数据科学家可以通过专注于技术细节并使用开源平台和框架来构建和训练模型,从而使这些POC发挥作用。开发模型后,ML工程师对其进行优化并将其投入生产。模型验证器执行质量保证和测试,以确保模型所有者能够解释模型 ,模型所有者可以使用模型可观察性工具跟踪ML模型。所有这些工作都是在ML架构师概述的设计蓝图和框架下进行的,ML架构师制定了架构,规则和流程,并确保隐私和合规性框架也得到遵守。这些角色中的每一个都将在后面的部分中讨论。 在最后一节中,本文建议这些核心角色作为AI团队的一部分一起工作,以便在AI计划中取得更大的成功 。 数据科学家 角色和责任 数据科学家处于任何高级分析计划的中心,并且仍然是该领域最受欢迎的角色。数据科学家的角色和职责的性质可能会根据其经验、企业的规模和分析成熟度以及项目复杂性而有所不同。因此,他们的职责将有所不同,包括: ■机器学习开发和调优。这涉及ML模型学习和训练、超参数配置和微调ML模型。这是数据科学家的核心责任,应该是一项协作和协商的努力。 在与高级数据科学家参与。 ■研究迎合不同业务领域的AI和ML用例并定义成功标准(与ML架构师协商)。他们应该评估 ML的可行性,以实现有形的业务成果,并确定业务问题是否需要ML/AI解决方案。 ■为ML开发选择正确的算法。根据用例,数据科学家将花时间研究正确的ML算法和技术 并在监督式、无监督式或强化式学习之间进行选择。有关更多详细信息,请阅读面向数据和分析专业人员的机器学习行动手册。 ■数据选择和管理。数据复杂性、质量和可访问性是AI实施的最大障碍。数据科学家应与数据密切合作 工程师担任数据湖,仓库和湖屋建设的顾问。数据科学家应为数据工程师定义特定于用例的领域和ML转换以及数据选择规则,并定义数据可访问性的易用性。例如,他们应该识别批处理与流或结构化与非结构化数据,或者在湖屋实现中,将对象存储中的“银”或“金”层作为增量/镶木地板文件与数据仓库中的暂存。有关更多详细信息,请阅读数据工程师的基本技能和数据工程基础知识、模式和最佳实践。 ■数据管理和特征工程。这涉及标记和注释来自优化数据存储的数据,并添加进一步的增强功能以增加细微差别 添加到ML算法的输入数据。有关详细信息,请阅读机器学习的功能存储(第1部分):功能存储的承诺。 ■数据探索和可视化。数据科学家应该花时间探索数据,并从收集的精炼数据中观察模式和异常。这不是 不仅帮助他们理解关键的指标行为,而且还会揭示异常。这项任务通常由初级数据科学家执行,因为他们试图了解数据环境。 大多数AI计划都失败了,因为在部署后生产,维护和扩展ML解决方案方面缺乏关注。因此,数据科学家通常与ML工程师携手合作,并在ML架构师的监督下部署ML解决方案。 数据科学家还应该承担起传播数据素养的任务,并解释采用高级分析来帮助决策的好处。它们可以帮助消除围绕AI可解释性和公平性的神话,并帮助业务用户了解无数的AI用例,这些用例可以帮助和增强业务决策。 技能要求 几乎所有主要技术公司都提供许多认证和培训计划,这些认证和培训计划提供了批判性思维和机器学习技能的良好结合。示例包括IBM数据科学专业证书和斯坦福大学的机器学习计划。一些云供应商,如亚马逊网络服务(AWS)已经推出了交互式平台,如DeepRacer,在游戏环境中提供实践培训和ML开发 。 技术技能 希望成为数据科学家的技术专业人员应该: ■拥有计算机科学,物理,统计学,工程,数学或经济学的本科或研究生学位的定量背景。然而,这并不是绝对必要的,因为更多的学科变得具有分析性。生物学,化学,商业和心理学学位也传授批判性思维和推理技能。 ■对统计和数学概念,理论和应用(如线性代数,概率论,微积分,算法和数据结构)有深刻的理解。 ■对机器学习用例、算法和技术有深入的了解,包括区分监督式、无监督式和强化式学习 。 ■对线性回归、逻辑回归、正则化、决策树、聚类算法和矩阵因式分解技术等算法有深入的了解。 ■了解机器学习生命周期中涉及的步骤,包括: ■数据选择和准备(本地数据存储与云、批处理与流式处理、文件与数据库、合成数据与真实数据) ■特征工程(插补、处理异常值、分箱、对数变换) ■模型训练 ■模型选择 ■模型测试(交叉验证,A/B测试) ■模型的解释 ■推理 ■精通Python、R和MATLAB等编程语言,并熟悉开发环境,如Jupyter笔记本、RStudio、SAS工作室、微软的可视化工作室和PyCharm以及开源机器学习库,如TensorFlow、Keras和PyTorch。 ■具备云计算和ML平台及工具的工作知识。例如,亚马逊鼠尾草,微软(Azure机器学习),谷歌的顶点AI和IBM沃森。有关排名的详细列表,请参阅数据科学和机器学习平台的魔力象限。 ■了解为其ML算法提供数据管理架构,无论是在本地还是在云中。这涉及了解数据仓库,数据湖或湖屋的概念和用法。因此,他们应该习惯于使用SQL,因为在与分析数据存储交互时,它被认为是占主导地位的编程语言。 ■拥有强大的数据可视化技能,使用主流商业智能工具,如微软PowerBI,Tableau,甚至使用Python库,如海洋和马特洛利布。 ■了解机器学习操作(MLOps)实践,包括IaC、容器化和CI/CD管道等开发运营原则。 非技术技能 技术技能本身并不能定义数据科学家。性格契合度,沟通技巧和商业头脑也是关键技能。希望为数据科学家的成功做好准备的技术专业人员应该: ■具备较强的沟通能力。他们应该习惯于用共同的商业术语向来自不同背景的商业界和技术专业人员解释技术概念。 ■在其职能领域内围绕术语,指标和整体业务职能拥有深厚的领域专业知识。这是必不可少的,因为它将帮助他们为ML和AI设计有效的用例,以满足各自的业务部门的需求。 ■享受在协作的团队环境中工作。数据科学项目涉及来自数据管理,DevOps,商业智能和商业专家的技术专业人员,与这些专业人员建立并保持积极的关系至关重要。 ■拥有好奇心,始终乐于研究新的用例和可能性。 ■帮助推动组织内的数据素养。他们应该解释ML和AI的好处,并帮助缓解商界可能对ML/AI用例的担忧,重点是道德AI。 图3总结了数据科学家所需的当前技能。图3。数据科学家的解剖学 Upskill路径 在这方面,希望提高技能的数据科学家有多种选择: ■通过学习ML工程,实现混合角色的技术成长 ■数据科学实践中向上移动 混合路径涉及学习ML工程并转向架构师角色。它需要机器学习部署和自动化、性能调优、基础架构以及将机器学习模型集成到业务应用程序中的知识。Google的专业机器学习工程师专注于ML操作化,是在这个领域获得认证的不错选择。追求ML架构师的技能提升路径需要在软件工程,质量保证,系统设计,安全性,用户体验设计和集成方面提供更强大的培训和经验。有关这些角色的更多详细信息,请阅读本文中的相应部分。 然而,许多数据科学家可能会选择资历上升到高级数据科学家,然后晋升到首席数据科学家,最终目标是首席数据科学家的职位。有关更多详细信息,请阅读首席数据科学家角色是发展高级分析和AI的关键。 公民数据科学家 角色和责任 公民数据科学家是对商业智能(BI)和ML具有技术倾向和兴趣的商业专业人士,公民数据科学家变得越来越重要,因为数据科学家所需的深入技术技能要么不可用(如图1所示),要么组织处于ML/AI成熟度的起步阶段。与ML工程师和数据科学家合作,公民数据科学家可能会扮演数据科学教育者的角色,帮助将业务与高级分析联系起来。或者,作为单独的分析专家,他们可能会使用低代码AISaaS平台来开发AI解决方案。在其他一些情况下,他们也可能开发AI解决方案并将其交给数据科学家进行最终确定。希望成为公民数据科学家的技术专业人员: ■利用他们的领域专业知识来研究有效的ML业务用例,并帮助制定项目目标。 ■通过使用增强型ML和AI功能以及低代码SaaS应用程序,帮助弥合技能差距。这些功能使用拖放界面自动执行AI系统和应用程序开发中的不同步骤,包括特征工程、算法选择、模型训练和超参数优化。 ■获取、探索和建立数据需求。此步骤涉及收集和准备要在机器学习模型中使用的相关数据。通常 ,这将涉及使用自助式数据转换和特征工程工具,例如 AWS胶DataBrew和微软(权力查询)。 ■通过提倡使用AI驱动的功能,在商业智能应用程序中扩展传统描述性分析的功能和用例 例如自然语言查询(NLQ)。