创激享发价信值任,。 白皮书 人工智能质量:大规模应用人工智能 的关键 摘要 为了最大限度地从人工智能技术中获益并有效掌控相关风险,企业需要应对三大核心挑战:全面 实施并最大程度地利用人工智能、保持合规性,以及负责任地使用人工智能。这些挑战都可以通过适当的人工智能质量管理来成功解决。 为助力企业在人工智能质量策略中取得成功,TÜV南德意志集团推出了一个创新的人工智能质量框架,该框架整合了标准、法规和行业最佳实践,全方位覆盖了人工智能质量的关键领域。该框 架为企业指引了确保人工智能用例质量的明确路径。 采纳此人工智能质量框架的企业可以确保全面涵盖所有关键质量方面,包括物理安全、信息安 全、法律合规、伦理道德3、系统性能以及可持续性。 为了实际展示这种方法的效果和价值,我们选择了一个基于人工智能的医疗决策支持产品作为研 究对象。这种人工智能质量控制方法不仅助力企业广泛地使用和整合人工智能,还有助于减少成 本和风险,进一步为产品在全球市场的竞争力、提升产品接受度,以及确保产品质量提供了坚实的基础。 目录 人工智能质量:大规模应用人工智能的关键 0103–03简介 02 04–05 TÜV南德意志集团人工智 03 06–08 用例 04 09–09 总结 05 10–10 人工智能质量服务实施 能质量框架 南德意志集团专家 TÜV AndreasHauser博士 TÜV南德意志集团数字服务首席执行官 作为TÜV南德意志集团数字服务的首席执行官,Hauser博士在工业4.0、智能检测 和人工智能领域积极推动创新。在其职业生涯中,他致力于数智化新产品和新服务的开发,以及新业务领域的探索。Hauser博士拥有造船和计算机工程的工程学学位,以及应用数学的博士学位。 Andreas.Hauser@tuvsud.com MartinSaerbeck博士 TÜV南德意志集团数字服务首席技术官 作为TÜV南德意志集团数字服务的首席技术官,Martin博士主导了包括人工智 能、机器人以及物联网技术在内的战略研发项目。在其职业生涯中,他在航空航天、制造和零售等行业引领创新项目,旨在提升智能系统的物理安全、信息安全和可靠性。Martin博士拥有计算机科学学位和工业设计的博士学位。Martin.Saerbeck@tuvsud.com 简介 许均多认专为家,和人商工界智领能袖将成命为力量21。世纪的技术革 人工智能质量:大规模应用人工智能的关键 人工智能已在众多主流行业的多种场景中成功落地,对企业、社会和环境产生了深远影响。这促使企业持续进行自我革新,并重新确立其在市场竞争中的地位。 为了充分利用人工智能提升效率和响应速度,企业面临着日益增长的竞争压力。同时,政府对人工智能可能带来的个人、社会和环境风险愈发关注,已经开始加大监管力度。例如,预计将在2025年实施的欧盟人工智能法案(EUAIAct)有望成为全球最重要的监管措施之一。另外,在法律和责任的框架下,市场普遍期望人工智能的实施过程能够更加透明和负责。 这引发了企业面临的三大挑战:规模化扩展人工智能、遵守法规,以及对人工智能负责任地使用。然而,许多企业在解决这些挑战时并未做好充分的准备,因为他们在缓解人工智能风险方面存在许多不足。1 这正是我们需要“质量”概念的原因。在人工智能语境下,“质量”指的是人工智能系统及其组件在生命周期内满足要求的程度。2它从各个视角去看待和解决人工智能系统的多个质量问题,如物理安全、信息安全以及伦理道德等。质量标准应该是透明和可衡量的,这样才能真正保证质量并成为高效生态系统的核心。 当前市场上存在众多质量方法和框架,但能适应审计的框架寥寥无几。据我们的了解,只有TÜV南德意志集团的人工智能质量框架能够全面覆盖所有关键的质量要素,包括物理安全、信息安全、法律合规、伦理道德3、系统性能以及可持续性。 TÜV南德意志集团的人工智能质量框架是一个结合标准、法规和最佳实践的灵活框架,能够为任何人工智能系统提供客观的评估,从而确保其优质性能。 在本白皮书中,我们会对该框架进行深入解读,并以一个基于人工智能的医学解决方案为例,此方案用于评估和分析大脑健康情况,来展示该框架在实际应用中的价值。 人工智能质量:大规模应用人工智能的关键 T人Ü工V南智德能意质志量集框团架 人工智能系统生命周期 人工智能数据生命周期 物理安全 信息安全 法律合规 伦理道德 系统性能 可持续性 标准和法规 人工智能最佳实践和技术基准 行业和领健域、特汽定车的、要教求育(等例)如医疗保 图ATÜV南德意志集团人工智能质量模型 TÜV南德意志集团的人工智能质量框架使企业能够系统地管理人工智能质量。TÜV南德意志集团的人工智能质量框架基于法规、标准和最佳实践。在此基础上,提取必要的质量特征并将其分为六个支柱,形成一个综合的人工智能质量模型(见图A)。 然后在人工智能系统的整个生命周期中系统地考虑AI质量模型。 伦理支柱 需要明确的是,在伦理质量的关键部 分中,我们使用了CertifAIEd™。基于双方框架的模块化和技术严谨性,TÜV南德意志集团和IEEEStandardsAssociation(IEEESA)正在人工智能质量的伦理方面合作。 工作原理 首先,建立人工智能质量的初始步骤 是确认相关的质量特性和关键的目标设定,这些目标设定应依据企业整体期望达成的标准(参照“实际适用性”部分)。 其次,我们通过对质量要素在质量支柱中的风险评估,以建立针对企业的风险画像,进一步明确人工智能系统必须满足的质量目标。 在最终阶段,这些建议的质量目标将被整合到人工智能质量框架的评估领域内,涵盖企业、技术和流程等相关领域(图B)。因此,人工智能质量框架包罗了控制企业内特定人工智能系统质量的所有要点。 实际适用性 我们推出的方法适用于所有类型的人 工智能系统,涵盖全面的质量要素和总体目标。举例来说,假设某企业希望了解其人工智能产品需要符合欧盟即将实施的人工智能法规的具体标准。那么,我们这种方式将能为其提供一整套明确的要求(质量概况),助力企业提前做好充分准备。在其他国家,例如中国的《互联网信息服务算法推荐管理规定》4或是美国纽约市最近推行的纽约人工智能招聘法案5,同样可以作为我们确定人工智能产品应遵行的目标标准。 另一种应用场景是提供公司人工智能产品负责任使用的证明。这会涉及全部的伦理议题,如透明度、隐私权、问责以及算法偏见等,所有这些因素都需要被纳入考虑,从而为相关的伦理声明提供坚实的支持。 核心 训练 模型 数据 整合 控制流程 执行 监督 控制 测试 流程 人工智能系统 人工智能质量:大规模应用人工智能的关键 TÜV南德意志集团的人工智能质量框架使 企人业工能智够能系质统量地。管理 在技术可扩展性方面,企业可能的目标是提升当前使用或预计使用的人工智能系统的性能,尤其是其准确率。此时,输出结果将包含所有与准确性相关的性能标准集合,以达成在企业内部拓展人工智能应用的最终目标。 您的获益 采用TÜV南德意志集团的人工智能质量框架的方法使企业能够系统地管理人工智能质量。除了能够持续规模化地整合人工智能的战略层面外,还有以下直接获益: •降低成本: 通过严格的人工智能质量管理,提高项目成功率,从而节省资源和降低成本。 •降低风险: 确保人工智能的质量可以降低从技术和法律方面到声誉方面的整体风险。 •市场准入: 确保您的人工智能解决方案符合国内外法规和标准,拓宽市场准入门槛。 •提高产品接受度: 高质量的人工智能产品将获得更高的消费者信任,从而提升市场接受度。 AI质量 企业 治理 基础设施 资源 云服务 大数据 流程管理 上下文合规性战略人才 人智工能 人智工能 系生周期统命 数生周期据命 风险管理 验证 信息安全 图BTÜV南德意志集团人工智能质量框架的评估维度 人工智能质量:大规模应用人工智能的关键 案例 TÜV南德意志集团的人工智能质量框架以评估的形式成功应用于MindsignsHealth™的NeuroBrowser™。NeuroBrowser™是一款由Mindsigns H(ealth™ 开发的自动化云端脑电图 EEG)解读软件。该系统利用人工智能技术处理和分类临床脑电图数据,实现了对癫痫和神经危重患者的EEG波形的自动解读和分析。界面的示例截图如图C所示。 NeuroBrowser™主要用于识别并分析原位和动态的癫痫波峰,以便预测、缓解、诠释和分析癫痫发作。这款工具在癫痫及非惊厥性发作的诊断和管理中发挥了重要作用。其核心功能主要建立在对脑电图的深度视觉检测之上,主要服务于医生和医疗工作者,通过辅助解读脑电图数据,为他们提供决策支持,极大地提升了医疗服务的效率。此外,该工具有基于网络的用户界面,保证即使在资源有限的情况下,也可以充分发挥其所有功能。此产品设定了两大核心的质量标准: 图C NeuroBrowserTM网页界面 •保证在不同医疗机构中的临床表现一致性。 •与传统视觉检查相比,能将EEG的解读和分析时间缩短10倍以上。 4 信息安全 3 1 1 00 需要注意的是,此次评估并未直接针对上述质量标准进行验证,而是重点评价MindsignsHealth™在管理人工智能及其相关质量风险方面的能力。 在评估过程中,我们对所有质量支柱内的相关质量特性进行了细致的检查 8 2 11 物理安全 2 0 6 法律合规 2 1 1 00 (包括物理安全、信息安全、法律合规、伦理道德、系统性能和可持续性)。选择和相关性的基准则建立在风险评估上。评估的结果以各个质量支柱的风险概况的形式呈现,详细内容见图D,图中通过柱状图形式详尽统计了每质量支柱中各个质量特征的剩余风险。 Frequency Frequency Frequency Negligible Low Medium High VeryHigh Unacceptable Negligible Low Medium High VeryHigh Unacceptable Negligible Low Medium High VeryHigh Unacceptable 10 可持续性 5 1 000 3 系统性能 22 0 00 4 伦理道德 3 1 0 1 0 Frequency Frequency Frequency Negligible Low Medium High VeryHigh Unacceptable Negligible Low Medium High VeryHigh Unacceptable Negligible Low Medium High VeryHigh Unacceptable 图D质量支柱分析 从图中可以清晰地看到物理安全和伦理支柱的优先级(如图E所示)。其中,物理安全和伦理为首要优先级,其次是信息安全、法律合规和系统性能,而可持续性的优先级相对较低。这些优先级是相对于现有的风险缓解措施设定的。 考虑到剩余风险的概况,我们对企业、流程以及特定的人工智能系统进行了深入分析,旨在评估企业在应对人工智能问题上的实际能力。整体上,MindsignsHealth™在应对内部人工智能质量挑战上展现出了充足的准备。 人工智能质量:大规模应用人工智能的关键 图E质量支柱中的剩余风险 物理安全信息安全法律合规伦理道德系统性能可持续性 3 2 2 2 1 1 通过深度分析,我们识别出了四个未来应优先关注的关键领域(如图F所示):人才培养、人工智能模型的训练、测试及控制。这些关键领域可以直接纳入行动计划中。 核心 训练 模型 数据 整合 控制流程 执行 监督 控制 测试 流程 人工智能系统 AI质量 企业 治理 基础设施 资源 云服务 大数据 流程管理 上下文合规性战略人才 人智工能 人智工能 系生周期统命 数生周期据命 风险