行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

如平衡量 Gen AI 对软件编码和单元检测的映射？(汉) 2024

信息技术 2024-12-30 - Capgemini LLLL

生成式人工智能对软件编程的影响及测量方法

引言

生成式人工智能（Gen AI）正逐步影响软件设计、编码和单元测试，其预期影响包括提高生产力、提升软件质量和促进创新。然而，如何衡量这些影响以及如何定义有效的测量协议是关键问题。实际规模的实验揭示了Gen AI在编码和单元测试方面的具体作用。

Gen AI对软件编程的影响

Gen AI可以协助软件工程师完成用户界面原型、实体模型和接口等设计输出，显著提高生产力。具体应用包括代码自动补全、生成单元测试代码、编写和迁移文档等。Gen AI还能直接建议代码或评估现有代码质量。根据Capgemini研究，61%的组织认为Gen AI的主要益处是促进创新性工作，其次是提高软件质量（49%）和增加生产效率（40%）。尽管90%的组织尚未规模化应用Gen AI，但27%正在运行实验性项目，11%已在其软件功能中应用Gen AI。预计到2026年，Gen AI将协助超过25%的软件设计、开发和测试工作。

测量的重要性

在现代技术快速演变的背景下，建立测量框架至关重要。衡量Gen AI的表现可以确保其达到预期目标，识别改进领域，提供问责制，并量化属性以指导决策。然而，衡量生产力具有复杂性，需要考虑定性和定量因素，包括具体情境。

衡量Gen AI影响的挑战

衡量Gen AI影响的主要挑战包括软件开发生命周期中开发工作的多面性和主观性，以及不同利益相关方的不同优先级。此外，86%的大型企业已采用Gen AI，而仅23%的小型企业采用，表明应用存在差距。

建立测量协议

生产力指标如部署时间或解决问题时间未能全面捕捉Gen AI的益处。建议使用包括速度、质量、安全性和开发者体验的指标。目前48%的组织尚未定义衡量Gen AI使用成功与否的指标，表明需要统一标准。

测量协议的组件

测量协议由以下组件组成：

团队组织：使用并行团队、影子团队或多元金字塔团队模式。
前提条件与成功因素：确保稳定和一致的测量条件。
测量方法：确定测量的时间线和过程。
规范化过程：管理实验过程中的不稳定性与变异性。
测量指标：包括编码速度、代码质量、代码安全性及开发者体验。
定性反馈：收集开发人员的整体体验信息。
测量工具：使用SonarQube、CAST、Jira等工具。
测量报告：选择合适的模板和格式呈现结果。

实际规模实验的指标

实际规模实验中评估的指标包括：

单元测试覆盖率
速度
代码效率
编码速度
代码安全性
代码气味
代码重复
开发者能力/资深程度的编码速度
编码速度按复杂性计算

团队组织

单一团队和多个团队方法均可有效。单一团队在同一用户故事大小/复杂性的情况下顺序执行待办事项列表，而多个团队并行执行相同积压工作。团队设置包括均衡成员层次结构、高级成员金字塔和部门成员的初级金字塔结构。

流程

关键考虑因素包括：

使用选定的Gen AI工具并遵循最佳实践。
收集指标和反馈，使用测量工具和调查问卷。
检查并标准化指标和反馈。
整合并报告测量结果，突出关键见解和发现。

时间线

准备工作包括：

定义团队组织和试点范围。
确定时间表。
验证先决条件。
准备团队执行。

关于凯捷

Capgemini是全球性的业务和技术转型合作伙伴，帮助组织加速向数字化和可持续世界转变。公司拥有超过55年的深厚背景，被客户信任，利用技术解决企业全方位需求，提供端到端的服务。

01Introduction 02Gen AI 将如何影响软件编程？ 03为什么测量很重要？ 04衡量 Gen AI 影响的挑战 05建立测量协议结果：来自实际尺寸实验的测量的关键 CONTENTS11Conclusion 12关于作者随着生成式人工智能（Gen AI）继续渗透到我们日常生活的几乎每一个方面，它对软件设计、编码和单元测试的影响既不可避免又令人兴奋。但这些预期影响是什么？如何衡量它们？如何定义一个经过验证的测量协议？而实际规模的实验又揭示了什么？生成型AI可以在软件工程师使用设计和编码将用户故事转化为软件时提供协助。它可以被利用来创建诸如用户界面原型、实体模型和接口等设计输出。这可以显著提高生产力，而不牺牲质量。但是，只有在由专家实施测量过程的情况下，才能感受到全部的好处。 How willGen AI影响软件编程? 这在实践中意味着什么？例如，软件工程师可以使用简单的语言来描述软件功能的预期功能，然后审查、更新和验证生成的输出。其他示例包括代码自动补全、生成单元测试代码、（重新）编写文档以及从一种编程语言迁移到另一种语言。当然，生成式AI已经得到了开发者的重视，因为它可以在编码过程中支持他们。它既可以直接建议干净的代码，也可以评估现有代码以提高软件质量，如果发现问题的话。首先，根据企业和组织的观点，通用人工智能（Gen AI）将对软件编程产生什么影响？我们的最新Capgemini研究机构报告显示：1报告表明，61%的组织认为促进更多创新性工作，如开发新的软件功能和服务，是生成人工智能（Gen AI）的主要益处。紧随其后的是提高软件质量（49%）和增加生产效率（40%）。组织正在利用这些生产效率提升来从事创新性工作，例如开发新的软件功能（50%）和技能提升（47%）。很少有组织打算通过这种方式减少员工数量（4%）。2 软件质量可追溯到早期测试阶段，在此阶段，单元测试用例和/或相关测试数据集未能涵盖所有可能的用户输入和场景。生成式AI可以协助开发人员编写更为完整的单元测试用例，其中用户故事能够提供即时工程背景以确保最大程度的相关性。它能够生成大量与真实世界数据高度相似的合成信息，以确保高覆盖率的单元测试。尽管通用人工智能（Gen AI）在软件工程领域的应用仍处于早期阶段，仍有90%的组织尚未规模化应用，但27%的组织正在运行大规模的Gen AI实验性项目，而11%的组织已经开始在其软件功能中利用Gen AI。到2026年，Gen AI预计将在软件设计、开发和测试工作中发挥关键作用，协助超过25%的工作。4 生成型AI poised to redefine conventional programming practices by shifting the focus from coding to prompt engineering and code proofreading. 这一点得到了OpenAI计算机科学家Andrej Karpathy的完美表达，他最近表示：“目前最热门的编程语言是英语。”3.” 为什么测量很重要？在现代技术快速演变的背景下，做出明智的决策对于成功至关重要。然而，在充斥着数据的世界中，提取有意义的见解可能是一项艰巨的任务。因此，建立一个测量框架是必不可少的。它如同航行的指南针，在信息的汪洋大海中引导团队从原始数据走向可执行的决策。衡量生成式AI（Gen AI）的表现确保其达到预期目标，无论是提高效率、提升准确性还是降低费用。这还有助于识别改进领域，指导进一步的发展和优化。并且它提供了问责制，向利益相关者展示其价值和投资回报率（ROI）。同时，测量使我们能够量化属性，从而更有效地进行比较、分析和理解。它还允许跟踪进度和评估绩效，并提供数据驱动的见解以指导决策过程。测量方面的挑战Gen AI影响 “量化的绩效得以管理”这句老话在生成式AI的新范式中依然适用。实施固然重要，但测量至关重要。然而，衡量生产力由于软件开发生命周期（SDLC）中开发工作的多面性、其发生于不断变化和演进的环境以及其固有的主观性和无形性，本身就具有复杂性。有效的测量需要一种全面的方法，考虑定性和定量因素，包括具体情境下的考量。测量软件质量是一项挑战，因为它涵盖了多个维度，包括功能、性能、可靠性、易用性、可维护性、安全性和可扩展性。评估质量需要考虑这些多样化的方面，每个方面都有其自身的度量标准和标准。另一个挑战在于不同的利益相关方有不同的优先级，无论是客户、企业、架构师、开发人员、测试人员还是运维人员。来自将每天使用Gen AI的软件工程师的反馈也需要考虑。这是一个重要的话题，因为Gen AI对开发环境和他们的工作方式产生了影响。近九成（86%）年收入超过500亿美元的大型企业已经采用（试点/规模化部署）通用人工智能，而年收入在1-5亿美元的小型企业中仅有23%采用了此类技术。5 建立测量协议生产力指标，如部署时间或解决问题的时间，未能全面捕捉生成式AI（Gen AI）带来的益处。特别是在非常规的生产力衡量标准上，如员工满意度，这些指标更适合通过DORA和SPACE等度量框架来捕捉。7然而，DORA和SPACE尚未得到广泛应用，因为它们的实施成本高且耗时。这一发现表明，包括速度、质量、安全性和开发者体验关键绩效指标（KPI）的一套指标可能是有用的。8 现在让我们专注于如何定义和实施一个实际的测量协议，以清晰地了解通用人工智能（Gen AI）在编码及作为定制应用程序开发一部分的单元测试方面的影响力。几乎一半的受访组织（48%）尚未定义衡量软件工程中生成式AI使用成功与否的指标。我们还发现，目前似乎没有统一的标准来衡量生产效率。6 我们的调查揭示了一个关于常用指标的重要事实。虽然它们适合常规大多数组织在使用生成式人工智能（Gen AI）时，根据如SPACE和DevOps研究与评估（DORA）等较少流行但更为综合的生产力指标框架进行衡量时，显示出改善。该测量协议提供了一个明确的过程，生成可理解、可比较和可靠的結果。组件 - 测量协议由什么组成？ • 团队组织：通过使用并行团队、影子团队或多元金字塔团队等不同模式，组织团队以实现显著且可执行的结果。 • 前提条件与成功因素：建立确保稳定和一致测量所需满足和考虑的条件与因素，包括团队稳定性、持续时间、积压任务、技术、工具、法律以及网络安全。 • 测量方法：确定测量的时间线和过程，包括准备阶段、基准设定和执行过程。 • 规范化过程：定义在实验执行过程中如何管理不稳定性与变异性，例如团队规模、容量或复杂性的变化，并据此调整相应的指标。 • 测量指标：识别用于衡量通用人工智能（Gen AI）对软件工程影响的指标，如编码速度、代码质量、代码安全性以及开发者体验。 • 定性反馈：建立一种机制以收集有关开发人员整体体验的信息，形式可以是调查问卷或逐字报告。需要注意的是，负面体验往往能提供最有价值的学习内容。 • 测量工具：确定用于收集和分析指标的工具，如SonarQube、CAST、Jira或开发者调查。 • 测量报告：选择适用于呈现和传达测量结果的模板和格式，涵盖详细和高层管理需求。指标 - 在实际尺寸实验期间将评估哪些数据？除了建立并启用必要的组件之外，还需要定义将在实际规模实验中评估的指标。这些是需要测量和分析的基本数据点。 • 单元测试覆盖率：评估软件质量和可靠性的关键指标。为了保持简单，我们专注于指令覆盖（C0），因为大多数工具都是以此为基础进行测量的。 • 速度：这应该在不同的水平上测量，因为它是最重要的指标。 • 代码效率：衡量软件中潜在的性能和可扩展性瓶颈。为了保持简单，我们专注于静态代码分析而不进行运行时分析（例如，使用性能分析器）。这并非行业标准，但却是客户认为极具价值的指标。编码速度：这是团队生产力（编码和单元测试）的关键指标，通常用实现的故事点数来衡量。 • 代码安全性：确定应用程序的漏洞问题风险和违规概率。开发者能力/资深程度的编码速度：根据开发者的不同能力（良好、一般、较差），计算在有和无生成式AI辅助的情况下完成“X”故事点所花费的时间。 • 代码气味：指可能需要注意或重构的不良或有问题的代码的指标。编码速度按复杂性计算：根据故事复杂性（简单、中等和复杂），计算所需用户故事点数，有无通用人工智能辅助下的差异。 • 代码重复：突出代码基中不同部分存在的相同或相似代码片段。借助生成式AI，更容易创建代码重复。团队组织 - 什么最有效？ • 单一团队：同一团队在同一用户故事大小/复杂性的情况下，有无Gen AI辅助的顺序执行待办事项列表。执行测量协议需要参与适当的用户故事积压。但在测量过程中应该涉及多少个团队？在我们看来，尽可能多地涉及多个团队可以最大限度地减少人为因素的影响。 • 多个团队：至少两个团队在有和没有 Gen AI 帮助的情况下并行执行相同的积压工作。团队设置 - 最佳组合是什么？ • 团队成员层次结构均衡：资深员工与初级员工比例适当。资深员工在日常工作中同时进行指导、mentorship和审核工作。团队的资历或能力对于标准化工作非常重要。因此，了解负责定义待处理任务的团队组合类型是必不可少的。 • 高级成员金字塔：由高技能且能力强的团队成员构成。无需进行培训、指导或详细的代码审查。在理想情况下，这被视为最高标准。 • 部门成员的初级金字塔结构：初级成员占多数。这要求重点关注教练、指导和审查，因为资深团队成员数量较少。单一团队顺序执行具有和不具有 Al 的相同大小复杂度的需求。由试点核心团队支持的现有项目团队多团队方法在有和没有 Al 增强的情况下并行执行相同的需求流程 - 关键考虑因素是什么？作为编码速度、代码质量、代码安全性和开发者体验，在不使用生成式AI辅助的情况下进行。• 使用选定的生成式AI工具并遵循最佳实践和指南，通过生成式AI辅助执行冲刺和发布。• 在实际规模实验执行期间和之后收集指标和反馈，使用测量工具和调查问卷。• 检查并标准化指标和反馈，使用标准化过程和公式。• 整合并报告测量结果，使用模板和格式，并突出显示关键见解和发现。一旦所有组件都被定义，需要有一个过程来确保高质量的结果，并减少由于估算不准确和人为因素导致的副作用。 • 创建团队组织和实验范围，包括用例、待办事项列表和技术栈。• 定义时间线和衡量方法，包括持续时间、阶段和流程。• 验证先决条件和成功因素，如团队稳定性、法律清关、网络安全审批和工具设置。• 进行基线审计以了解当前的软件工程指标情况，如时间线准备工作 • 定义团队组织和试点范围• 确定时间表• 验证前置条件（工具采购、法律和安全审批）• 准备团队执行（工具上线、演示、工具集）关于凯捷 capgemini 是一家全球性的业务和技术转型合作伙伴，帮助组织加速向数字化和可持续世界转变，同时为企业和社会创造实际影响。它是一个拥有340,000名成员的责任多元团队，遍布超过50个国家。凭借超过55年的深厚背景，capgemini 被其客户信任，利用技术来解决企业全方位的需求。该公司通过从战略和设计到工程的全面服务和解决方案，利用其在人工智能、云计算和数据领域的市场领先能力，结合深厚的行业专长和合作伙伴生态系统，提供端到端的服务。集团在2023年的全球收入为225亿欧元。 www. capgemini. com

点击免费查看完整报告

如平衡量 Gen AI 对软件编码和单元检测的映射？(汉) 2024

生成式人工智能对软件编程的影响及测量方法

引言

Gen AI对软件编程的影响

测量的重要性

衡量Gen AI影响的挑战

建立测量协议

测量协议的组件

实际规模实验的指标

团队组织

流程

时间线

关于凯捷

你可能感兴趣

如平衡量 Gen AI 对软件编码和单元检测的电影？

新一代软件： Gen AI 在软件开发中的真正价(汉) 2024

Capgemini 配备 Gen AI 的船只激增软件组组织如何精简发展成就性人工智能能在软件工程中的吸引力（汉） 2024

行使铸造的自然人 Gen AI 援助手为您的业权能(汉) 2024

Capgemini-配备Gen AI的涡轮增压软件-组织如何充分发挥生成性人工智能在软件工程中的潜力（英）-2024

顶尖科技趋势 2025年AI和Gen AI对网络安全的影响：一切皆由人工智能驱动

衡量全球贫困和不平等的底层编码（英）

新一代软件： Gen AI 在软件开发中的正价值

取消 2024 费者行为洞考察：生成式 AI 对买物旅程的电影(汉)

中东和北非（ MENA ）向可持续和好运气旅游旅游业转型型：对艾及、巴黎巴润和摩洛歌舞旅游业建的会议（汉 2024 ）

如平衡量 Gen AI 对软件编码和单元检测的映射 ？(汉) 2024

你可能感兴趣

如平衡量 Gen AI 对软件编码和单元检测的电影 ？

新一代软件 ： Gen AI 在软件开发中的真正价(汉) 2024

Capgemini 配备 Gen AI 的船只激增软件组组织如何精简发展成就性人工智能能在软件工程中的吸引力 （ 汉 ） 2024

行使铸造的自然人 Gen AI 援助手为您的业权能(汉) 2024

Capgemini-配备Gen AI的涡轮增压软件-组织如何充分发挥生成性人工智能在软件工程中的潜力（英）-2024

顶尖科技趋势 2025年AI和Gen AI对网络安全的影响：一切皆由人工智能驱动

衡量全球贫困和不平等的底层编码（英）

新一代软件 ： Gen AI 在软件开发中的正价值

取消 2024 费者行为洞考察 ： 生成式 AI 对买物旅程的电影(汉)

中东和北非 （ MENA ） 向可持续和好运气旅游旅游业转型型 ： 对艾及、巴黎巴润和摩洛歌舞旅游业建的会议 （ 汉 2024 ）

如平衡量 Gen AI 对软件编码和单元检测的映射？(汉) 2024

如平衡量 Gen AI 对软件编码和单元检测的电影？

新一代软件： Gen AI 在软件开发中的真正价(汉) 2024

Capgemini 配备 Gen AI 的船只激增软件组组织如何精简发展成就性人工智能能在软件工程中的吸引力（汉） 2024

新一代软件： Gen AI 在软件开发中的正价值

取消 2024 费者行为洞考察：生成式 AI 对买物旅程的电影(汉)

中东和北非（ MENA ）向可持续和好运气旅游旅游业转型型：对艾及、巴黎巴润和摩洛歌舞旅游业建的会议（汉 2024 ）