AI价值对齐:指导人工 实现共同人类目标的情报 白皮书 10月2024 GettyImages图片: Contents 前言3 执行摘要4 导言5 1什么是AI价值对齐?6 1.1价值取向与文化差异7 1.2价值调整中的技术和组织考虑因素8 2实践中的价值对齐10 2.1背景和社区10 2.2值的设计11 2.3价值调整过程13 3值对齐的启用程序14 3.1框架和准则14 3.2人类参与15 3.3组织变革15 3.4审计和评估 4值和红16线17 结论18 附录19 贡献者21 尾注23 免责声明 这份文件由世界经济论坛发布,作为对某个项目、洞察领域或互动的贡献。文中表达的研究发现、解释和结论是世界经济论坛协力过程的结果,并得到了该组织的批准,但其结果不一定反映世界经济论坛的观点,也不一定代表该组织全体成员、合作伙伴或其他利益相关方的意见。 ©2024世界经委会.保留所有权利。本出版物的任何部分均不得以任何形式或通过任何手段进行复制或传输,包括复印和录音,或通过任何信息存储和检索系统。 引导人工智能实现人类共同目标AI价值契合:2 引导人工智能实现人类共同目标2024年10月AI价值调整: 前言 维吉尼亚·迪尼格负责人工智能的有责任性教授 ,乌梅亚大学;世界经济论坛人工智能未来council联合主席 随着人工智能(AI)系统越来越多地融入社会的各个方面,确保这些系统与人类价值观保持一致变得至关重要。本文探讨了AI价值对齐问题,强调将公正、隐私和公平等伦理原则整合到AI技术中。我们提出了实用的框架和方法,以确保在整个生命周期中AI系统能够维护这些价值观。通过促进一种协作和透明的方法,我们旨在引导一种既具有创新性又符合道德规范的人工智能的发展 。 发行方面,强调了进一步明确许多价值一致性方面的需求,并开发清晰且标准化的方法的重要性 。随着人工智能继续渗透到各个领域,建立全面的框架和指导方针对于确保这些系统在可接受的伦理和社会规范范围内运行至关重要。标准化不仅有助于提高透明度和责任感,还能在利益相关者之间培养信任,从而促进负责任和道德的人工智能技术的应用。 尽管在AI技术方面取得了显著进展,确保AI系统的行为与人类价值观和伦理原则保持一致的价值对齐概念仍需更多的理解。本白皮书旨在解决这一关键问题。 全球人工智能未来理事会致力于解决并参与这一重要对话,同时强调具体的措施以实现价值对齐 ,并促进在未来的人工智能开发、应用和治理中采取透明和协作的方法。 执行摘要 AI价值对齐的概念对于确保人工智能系统的行为与人类价值观、伦理原则和社会规范保持一致至关重要。 这份白皮书涵盖了价值对齐的概念,包括其定义、实际应用以及将价值观嵌入人工智能(AI )系统的流程。人类价值观如公正、隐私和自主性与操作属性如稳健性和透明度进行了对比 ,强调了在伦理影响与技术机制之间寻求平衡的重要性。 对AI价值对齐的方法还包括对框架、指导原则、人类参与、组织变革和审计流程的详细审查。这些助力措施有助于确保AI系统不仅具有创新性,还具备道德性和可靠性,从而在用户和其他利益相关者之间促进信任和透明度。 探索整个AI系统的生命周期,本文的分析强调了将价值观转化为规范并验证其遵守情况时需要明确且可审计的过程的重要性。积极的利益相关者参与和持续监控对于保持与社会价值观和伦理标准的一致性至关重要。 最终,价值对齐与AI伦理红线的概念相关联——这些是非谈判的边界,AI系统必须遵守。通过嵌入核心人类价值观并保持严格的监督,价值对齐过程确保AI系统在既定的道德和法律框架内运行 ,防止不道德行为并维持社会信任。 Introduction 关于价值调整的集体行动对于确保人工智能系统反映基本的人类价值观至关重要。 人类的价值观,如公正、隐私和自主性,是社会伦理和道德框架的基本原则。这些价值观对于保护人类尊严和个体权利、促进公平自主的互动至关重要。相比之下,稳健性、透明性和可解释性等操作属性通常作为系统非功能需求的一部分,定义了技术解决方案的质量和性能。虽然这些属性对于构建可信可靠的AI系统至关重要,但它们更多关注的是系统的运行和可靠性,而非其对人类生活的影响所涉及的伦理问题。有关负责任和可信赖AI的指导原则往往会将这些不同的价值类型融合在一起,有时会模糊以人类为中心的伦理与系统设计和实施的技术方面之间的界限。 价值对齐的概念已成为AI领域的一个关键关注点。这一概念围绕确保AI系统的行为 、决策和结果与人类价值观、道德原则、社会规范和基本人权相和谐展开。 价值对齐从根本上说是关于人类的责任感,强调即使这些系统变得比人类更加智能并且控制权成为问题时,人类仍应对AI系统的伦理和社会影响承担责任。虽然计算实现可以通过将公平、透明和隐私等核心价值观嵌入系统中来支持和促进这种对齐,但这并不免除人类最终的责任。这一过程涉及持续监控、利益相关方参与和合规审计,以确保AI系统遵守已建立的伦理标准和社会规范 。 机制必须到位以维持人类监督和决策权。这包括实施应急措施、创建透明的决策流程,并在必要时建立明确的人类干预协议。在AI可能做出具有重大伦理影响的自主决策的情况下,这些措施的重要性尤为突出。 这份白皮书探讨了价值对齐的基本方面,提供了相关过程的深入分析。首先,讨论了一种价值分类学——展示了健康医疗、信用评分和自动驾驶等领域中不同类型的人类价值观和偏好,并附有示例说明。随后,考察了如何在实践中应用价值对齐,探索其在不同背景下和各种社区中人工智能系统开发各阶段的重要性。研究涵盖了价值对齐的关键工具,如框架、指南和方法论,这些对于确保人工智能系统与人类价值观相一致至关重要。 最终,本文探讨了价值对齐与负责任的人工智能发展中红线之间的关键联系。红线代表AI系统不可逾越的不可谈判的边界或道德限制。理解价值对齐与红线之间的关系对于全面理解和把握负责任的人工智能发展及其对社会的影响至关重要。 通过这一探索,白皮书提供了当前价值对齐状态的概览,并对其重要性、应用及其对未来科技和社会的影响提供了见解。 1 什么是AI价值对齐? 定义价值观一致的AI系统涉及多个维度,包括伦理原则、文化背景和社会影响。 AI价值对齐对于确保人工智能系统的行为与人类价值观保持一致至关重要。人类价值观与指导人类行为和决策的基本原则相关联,可能包括公正 、隐私、自主和尊重等概念,这些构成了社会伦理的基础。 普遍的人文价值往往高度抽象,并且在不同文化 、社群和情境下可以有不同的解读。例如,尊重作为一种普遍的价值,其具体表现可以从期待握手到完全避免身体接触。现有的价值体系在定义人文价值方面存在差异。通过第二部分第一节中概述的价值分类法(valuetaxonomy),可以帮助对人文价值和偏好进行分类,并展示它们在各种情境下的理解和实施方式。 有效的价值-aligned也需要不同利益相关方的积极参与,以便正确理解价值及其解释结果。这种参与性方法确保了AI系统与其所服务的社区的价值相一致。 要构建一个价值一致的人工智能系统,需要考虑和解决许多方面的问题: -系统应与哪些人类价值相一致。 -何为与这些价值相一致的意义。 -如何实现这种一致性。 -如何验证系统是否确实一致。 -在系统部署后如何监控一致性随时间可能出现的漂移。 -如何更新系统以应对价值观的变化。 -如何更新系统以应对价值观的变化。 AI价值对齐要求整个过程——从将价值观转化为规范、实施这些规范并验证其遵守情况——必须是明确且可审计的。这意味着每一步都必须清楚记录,并且可以接受审查,以便检查透明度和问责制。 图1医疗保健AI中的寻址值 在医院环境中使用的AI系统可为患者诊断和治疗建议提供支持。在此背景下确保价值一致意味着该AI系统必须秉持以人为本的核心价值观,如患者自主权、隐私、公平性和人类自主性。这里的“人类自主性”是指医生将根据AI的建议做出最终决定。此外,该系统还必须解决患者与医疗提供者之间的信息不对称问题,确保患者充分了解AI系统的工作原理及其建议的生成过程,从而促进透明度和信任。 实施和评价 患者自主权、隐私权和公平性的价值可以通过决策支持工具、加密技术和多样的训练数据集来实现,而合规性、稳健性和互操作性则可以通过监管检查、严格的测试和标准化数据格式来确保。评估可以通过患者满意度调查、安全审计、偏见指标、外部审计、性能监控和互操作性测试来进行。 1.1价值取向与文化差异 人的核心价值观 1 AI系统应该患者自主权: 尊重患者的选择和偏好。例如,如果患者由于个人信念选择较为保守的治疗方案,AI应通过提供相关风险和利益的信息来支持这一决定,而无需强迫患者接受其他建议。 2 AI必须保护患者隐私: 保密性,确保敏感的健康信息安全存储,并仅限授权人员访问。这与基本的人权隐私权相一致。 3 AI的建议公平性: 系统应保持公正和公平。例如,不应基于种族、性别、社会经济地位或其他任何因素对患者进行歧视。 4 人工智能系统必须是透明的,Trust: 可靠且负责任,以培养医疗提供者与患者之间的信任,并确保对其建议的信心。 其他价值观 (非功能性要求) 1 遵守法规: 该AI系统必须遵守医疗保健法规——例如,美国的《健康保险portability和责任法案》(HIPAA)规定了严格的数据保护和患者隐私标准。 2 :系统应该技术鲁棒性 要技术上robust,这意味着其诊断和建议必须可靠准确。这涉及严格的测试和验证 ,以防止可能危害患者的安全错误。 3 AI系统应该是互操作性: 能够无缝集成现有的医院系统,如电子健康记录(EHR),以提供全面护理而不干扰医疗提供者的workflows。 文化差异也会影响价值优先级,在不同的社会中 ,个体隐私与集体和谐的优先级存在差异。1此外,每个人可能都有自己的价值观和偏好,这些可能与他人不同。因此,人类的价值观可能在个体、组织、国家等层面被识别。 全球范围内,在不同层级识别并优先考虑合适的价值观至关重要,这取决于部署场景。对于在全球或一个国家内部部署的AI系统而言,如果价值对齐是在不同层级实施的,这将极具挑战性。示例如何见图2。 图2文化背景和个体差异 为了有效应对AI所面临的文化背景和个体差异,系统必须根据各个领域内多样化的价值观和实践进行定制,如以下示例所示。 医疗保健 信用评分 自动驾驶 在医疗保健领域,用于患者诊断的人工智能系统必须优先考虑患者的自主权、隐私和公平性。然而,这些价值观的解释在不同的文化中可能会有很大的差异。在某些文化中 ,患者的自主权意味着向每位患者提供所有可用的信息,并允许他们自己做出医疗决策;而在其他文化中,家庭成员参与决策过程是常见做法,反映了一种集体性的患者自主权观念。为了解决这一问题,人工智能系统应该纳入尊重患者偏好并适当允许家庭成员输入的决策支持工具。评估系统的成功应包括调查患者满意度,并衡量系统支持特定文化决策过程的能力。 人类价值观在不同情况下可能含义不同。例如,为了确保人工智能信用评分系统的公平性,应使用包含多样化人口群体的数据集来训练模型,并考虑文化及个人在金融行为上的差异。不同的文化可能会因社会、经济和历史因素而对信贷使用和储蓄采取不同的方法,这些因素应在训练数据中得到反映。审计和公平性指标(如不对等影响比率)也应予以考虑。2 –应该进行评估以确保AI在不同人口 统计群体中的性能,以免对任何特定群体造成不利影响。 在自动驾驶车辆的背景下,确保AI系统优先考虑人类安全涉及实施严格的测试协议和实时监控以防止事故,并考虑特定场景下的安全标准。例如,交通模式和驾驶行为在城市与农村地区或不同国家之间可能存在显著差异 。可以通过冗余机制和实时监控系统来增强安全性,根据不同的驾驶环境和道路安全的文化规范(如不同的限速和行人行为)调整这些措施。系统性能可以通过运行时间指标进行监控 。3并且通过开展实施后审查以应对安全事件,确保系统