您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[凯捷研究院]:工业 R 中的数字加速 ## 038; D - 发现报告

工业 R 中的数字加速 ## 038; D

工业 R 中的数字加速 ## 038; D

如何快速、安全地从数据科学和AI项目中提供价值 CONTENTS INTRODUCTION31.在你之前证明价值COMMIT42.立即接近右边数据73.正确的类型智能114.部署模型比例尺14快速地将它们聚集在一起Results16 INTRODUCTION 数字研发正在迅速发展,通过加快将新创新推向市场的时间并减少浪费的精力和成本,为创新创造了有利可图的机会。 过程自动化的成果让位于更复杂和细致入微的AI使用来预测产品配方结果。数据科学和人工智能将被要求做更复杂的任务,用更少的确定数据。 数据科学和人工智能是数字研发皇冠上的明珠,使人们有可能发现看不见的研究机会,更加市场驱动,及早预测成功或失败,自动化艰巨的过程,在小数据集中找到新的见解和证据,并优化产品开发。 组织将发现自己拥有不断发展的数据科学项目组合,这些项目将使他们朝着数字研发的成熟方向发展,并有望取得许多成功。 那些建立数据科学研发项目组合的人需要人员,流程和技术来以速度和规模创建强大的模型。他们还需要战略方法来评估AI可以在哪里增加价值,确定哪个项目的优先级以及何时进行更改或停止项目。 正确地做到这一点不仅仅是技术上的可能性。它是关于能够以能够为研发提供切实价值的方式使用这些工具,在使其值得的时间框架内。 数据科学和人工智能是复杂的工具,必须在研发的不同领域进行仔细整合,并仔细地与它们的操作环境保持一致。必须考虑从数据收集到模型选择到用户体验的整个实施过程。 成功结合了业务战略,项目管理,数据工程,数据流水线,构建和验证模型,软件工程和用户支持,所有这些都必须团结一致。 随着数字研发的加速,数据科学和人工智能将在快速进行研发方面发挥更大的作用,但绝不能损害准确性。同时,对这些的期望工具将变得越来越复杂,因为低挂 本白皮书借鉴了广泛的数据和AI项目-涵盖CPG,化学品,农业综合企业和制造业探索哪些因素带来成功。 1.在你承诺之前证明价值 如何决定推进哪些数据项目 概念证明可能会说:“我们希望使用历史船只位置数据来推荐哪种保护性防污涂料提供最佳性能和价值。我们如何设计这样的系统?”。价值证明首先会问:“我们现有的数据是否包含正确的信息来制作 从数字研发中提供快速价值将涉及投资组合方法,确定一系列可以实现总体业务目标的项目,并并行追求这些目标。研发过程的每个阶段都可以查看数据科学可以增加价值的范围,从建模产品配方到预测需求。 “价值证明”可查看计划中的数据项目或模型 这些预测具有我们(和我们的客户)需要的准确性? 开发,并问:“这可能与现有的数据吗?如果我们建立了它,它会有用吗?” 这样,您就可以快速确定哪些工作流现在要进行,哪些工作流需要更多的工作来捕获有用的数据,哪些工作流的交付成本高于它们所创造的价值。该过程还可以识别未考虑的机会,这些机会可以添加到产品组合中。 诱惑可能是大胆的想法,开始建立概念证明。但在此之前,我们应该做一个价值证明练习。 Capgemini Engineering开发了一个强大的产品保质期预测模型化学公司。 我们开始使用主成分分析和相关性检验等技术来确定数据的预测能力。这表明20种关键成分对保质期的影响最显著,更重要的是,这种影响是高度非线性的。基于此,神经网络被选为最佳方法。 在训练初始神经网络后,我们观察到预测中的系统偏差。这可以追溯到配方科学家传统上进行研究的方式:通常在测试中尝试更安全的成分组合。为了解决这个问题,我们采访了领域专家,将他们的理解编码成一个补充的基于知识的神经网络。适应的神经网络具有更大的预测能力,并且作为补充优势,领域知识的编码确保了在整个业务中更好地共享和保留专业知识。 基于知识的神经网络现已在业务中得到全面采用,将产品浪费减少了50%以上,并将配方测试加速了20%以上。 例如,在一个项目中,客户有很多杂乱的数据,他们正在努力从中获取价值。我们确定了一个样本数据集来测试价值,并设立了一个生物信息学家来手动分析数据,并以机器学习系统的方式得出结论。 如何启动价值证明计划 有价值的数据科学和AI项目从价值证明开始 为了证明价值,我们主张从“可能的艺术“工作坊。 价值证明使研发能够优先考虑最可行的数据和AI项目,并在进行任何重大投资之前计划交付这些项目的路线。这样的映射不仅是项目的基础,而且是明确的,有证据的业务案例的基础,这些案例将确保组织对项目的购买。 这些研究了一系列可以提供业务价值的计划用例,并讨论了潜在的对于新的,包括查看其他组织的成功以获得灵感。对于每个,他们都会询问用例试图实现什么以及可用的数据。 This allowed us to understand what insightcould be gained from that data, and what itslimitations were not known to the client. Thisidentified approaches we was confident wouldwork and could be building out. 一旦你确定了可行的项目,你就可以继续为每个项目构建概念证明。这将在下面的两个部分中介绍,然后在第4部分中了解如何将这些项目转化为生产性可用产品。 然后,数据科学家应该对最有前途的用例进行优先级排序和调查,他们使用可用数据根据预期的业务目标探索可能性,并可视化洞察力。这允许快速评估建议的价值是否可以已交付。 “价值证明”可以快速评估是否可以交付建议的价值。 2.立即访问正确的数据 如何确保生成、准备、控制和访问正确的数据? 好的数据是任何模型的基础。任何模型 无论是识别候选分子、温度变化对食品化学的影响,还是供应链变化的影响,都需要对代表正在建模的准确、有代表性的数据进行培训。 即使一个模型是完美的,如果进入的数据不正确或不完整,它仍然会产生错误的结果。 访问该数据是许多建模者的痛点。数据通常具有不同的格式,不同的位置或根据不同的系统进行标记。有些将被主观捕获并可能反映出人类的偏见。此类数据可能需要大量的工作才能用于建模。 如果数据中的错误被错过,它们将导致问题,导致次优或不正确的模型输出。 按顺序获取数据 好的数据是FAIR (Findable, Accessible, Interoperable, Reusable)。它的存储方式使搜索它的任何人都可以轻松识别。它的格式可以被人类和机器读取。而且它清楚地知道如何使用它的任何限制或规则。 受Capgemini Engineering的数据管理成熟度模型启发,应遵循以下四个原则,以确保组织的数据可以有效地用于建模。 无论是识别候选分子、温度变化对食品化学的影响,还是供应链变化的影响,都需要对代表正在建模的准确、有代表性的数据进行培训。 1.数据必须为建模者提供足够的质量 3.考虑隐私和安全以避免问题 数据必须来自可信来源。这对于您自己的化学分析数据来说可能很简单,但对于开源数据或来自面板测试的第三方数据来说会更加复杂,这些数据可能包括偏见或误报。对于公共数据来说,这将是特别具有挑战性的。 如果在不符合隐私规则的数据上训练模型,则可能会导致严重的问题。它的来源和允许使用应在元数据中明确。它还必须有足够的安全性来保护它,在存储和使用它的地方。 一个常见的问题是非常平坦的数据,即具有相对较少的产品但具有数百个不同属性的数据。这使得数据易于过拟合,看起来预测能力正在增加,但实际上,模型变得越来越脆弱,并且在应用于新数据时会失败。 4.使数据一致、可访问和可跟踪 需要设置数据存储、湖泊和仓库,以便任何需要的人都可以访问数据,而不需要的人也可以访问数据。这还包括选择工具和构建将数据传送给数据科学团队的集成商。 数据科学家需要确保有足够的数据,纠正任何缺失或混淆的元素,并与领域专家合作审查和修改数据,以便它准确地代表它在现实世界中测量的事物。 数据必须具有单一的真实来源。它必须在IT系统中链接在一起,这样,如果一个实例被更改,所有其他实例都会被更新。 最后,所有数据都必须有一个数据管家,一个决定如何存储和管理的人,以及一个需要进一步信息的建模者可以联系的人。 2.使用元数据使数据可搜索和可理解 应该添加元数据以增强理解和可用性。这将包括对数据代表的描述-例如分子的类型,以及来源,时间戳等。命名事物必须有一致的分类法。 良好的元数据允许具有不同兴趣的不同群体在系统中轻松找到它,并允许阅读它的人——包括机器——理解它,并轻松地将其与其他数据进行比较。 应该添加元数据以增强理解和可用性。” Rapide:数据科学项目的专业治理框架 Capgemini Engineering的RAPIDE框架可指导组织完成数据科学项目-从数据选择到模型开发再到产品化,并在关键阶段进行检查,以确保项目仅在准备就绪时才进行。 i.就绪性评估 评估您需要的数据以及可用的数据。了解分析问题的类型:是分类/回归,监督/无监督,预测,根本原因分析,统计,基于物理的?了解问题的“动态” -即传入数据的性质会随着时间而改变,需要定期再培训?第1节中的价值证明练习将有助于指导第一阶段,并确认项目值得推进。 ii-iii.高级数据筛选和精确定位变量 使用一系列简单的技术探索数据,以发现感兴趣的事件之间有意义的相关性。For example, do prodct characteristics, sch as tesio, correlate witha chage i the extrsio process? Idetify costraits i the data that might limit model choice; sch exverse broad data that might sive variables that dictbehavior.早期的见解有助于引导您的模型变得最有效。 iv.识别候选算法 根据先前分析的输出,确定候选建模技术(可以是经验,物理,随机或混合)。列出最有前途的候选算法,并快速评估每种算法的可行性。 v.开发强大的模型 决定最适合该问题的模型。检查实现要求,例如用户界面、所需的处理速度、架构等,以确保在提交之前它将是可用的解决方案。收集验证数据 vi.进化和嵌入 将解决方案嵌入相关业务部门,并使用从服务中使用获得的数据进行优化。 如果正确执行这些步骤,则部署后任何模型都不会失败。 3.正确的情报类型 选择最有效的工具和技术来获得所需的答案 一旦你很高兴你有正确的数据,是时候建立起工作的模型了。 同样,如果问题可以通过更简单的统计方法得到解决,则无需构建复杂的强大机器学习模型。基于对产品的物理理解的简单或幼稚的模型 没有规则说明哪种方法最适合特定问题。问题的性质和背景,数据质量和数量,计算能力需求以及预期用途都可以提供给模型选择和设计。 properties may be able to demonstrate howproduct performance decades over time. Thismay be perfectly good enough for some needs,such as redirecting research focus. 机器学习和神经网络等技术在有大量精心策划的数据的情况下可能非常强大。例如,从几十年的历史性能测试数据中训练,开发准确的产品性能预测,可以通过计算真实的总拥有成本来开发和销售高价值产品。 建立任何特定的模型都需要具有该模型的正确技能的人。但是真正的挑战 知道哪种模型最适合使用。当根据可用的建模技能而不是最适合问题的决策时,通常会出错。当组织涉及一系列数据科学专家,他们可以评估 然而,“最强大”并不等同于“最合适”。 最好的工具,基于对类似问题的丰富经验。同样重要的是要准备好在流程的早期调整你的方法,以确保你为你的数据获得正确的最终模型。