技术引物为决策者 人工智能和机器学习 技术和公共目的的项目 2023年4月 作者 伊萨姆EddineAbail(哈佛肯尼迪学院) 塔·Nadadur亚洲(集团)恩里科Santus(彭博社) ArielHiguchi,科技引物项目领导(哈佛肯尼迪学院)Amritha/(哈佛肯尼迪学院) 评论家 尼古拉斯·克里斯汀(卡内基梅隆大学) 苏珊·里奇(美印战略伙伴关系论坛)丹尼尔·张(斯坦福大学以人为本的人工智能研究所) 教师主要调查员 灰卡特,TAPP教师导演,为纪念 本出版物中表达的陈述和观点仅代表作者的陈述和观点,并不意味着认可由审稿人及其各自的组织,哈佛大学,哈佛肯尼迪学院或贝尔弗科学与国际事务中心提供。 人工智能(AI)技术情况说明书最初发布于2020年1月。机器学习(ML)技术情况说明书最初发布于2019年6月。AI和ML技术情况说明书已更新并合并到本文档“人工智能与机器学习”中。 原始AI技术情况说明书的贡献者 恩里科Santus尼古拉斯·克里斯汀HarshiniJayaram 原始ML技术情况说明书的贡献者 艾米·罗宾逊ArielHerbert-Voss 原始的编辑 Amritha/BogdanBelei 《决策者技术入门丛书》旨在简要概述每项技术和相关的政策考虑因素。这些文件并非详尽无遗。 技术和公共目的的项目 贝尔弗科学与国际事务中心哈佛肯尼迪学院 约翰·f·肯尼迪街79号,马剑桥,02138年 版权所有2023,哈佛大学校长和研究员在美国印刷 内容 执行概要 人工智能(AI),可以定义为机器(尤其是计算机程序)的理论和应用,以执行通常需要人类智能的任务,例如图像字幕和生成,语音识别和合成,自然语言理解和生产,工具组装和利用,以及各种其他基于感知行动的参与。 人工智能以其当前的技术状态,正在应用于各个行业和领域,例如在线广告、金融交易、医疗保健、制药和机器人技术。利润丰厚的市场 人工智能应用程序提供的机会吸引了Alphabet,Apple,Meta,Amazon和Microsoft等科技巨头以及研究型大学和初创公司的投资。 机器学习(毫升),通常被归类为人工智能的一个子领域,是一个关于使用统计算法自动发现数据中历史模式的研究领域。 ML的驱动原则是,历史模式可能会在未来重新出现。因此,可以利用发现的历史模式对以前从未见过的数据进行准确的预测。一旦算法经过训练,它就可以应用于新的、更大的数据流。ML已经成为许多已部署的商业应用程序不可或缺的组成部分,例如内容生成(例如,文本,图像,音频,视频生成),虚拟助手,社交媒体源排名,内容推荐系统,金融市场预测, 以及医疗保健筛查和诊断工具,以及行政应用。此外,ML是其他各种新兴技术的基础,例如自动驾驶汽车和下一代网络安全。 目前,美国在人工智能方面的政策往往源于对各种先前存在的立法和法律先例的解释。然而,随着人们对人工智能相关风险(例如偏见、问责制、滥用等)及其潜在影响规模的认识不断提高,在过去十年中,州和联邦层面包含人工智能条款的拟议法案数量显着增加(即从2012年的两项法案增加到2021年的131项),其中2%成为联邦一级的法律,20% 他们在国家层面成为法律。1同样,正在制定政策和监管框架,以指导人工智能在其他大陆的发展和应用,欧洲和亚洲引领这一进程。2认识到这项技术对人类生活和社会动态的潜在影响,美国立法者和政策制定者迫切需要继续参与人工智能的道德和实践发展。 1摩根刘易斯,“人工智能报告中提到的全球人工智能立法的增加”,JDSupra,2022年4月7日,https://www.jdsupra.com/legalnews/增加全球人工智能-8328913/。 2乔纳森·基恩(JonathanKeane),“中国和欧洲正在引领人工智能监管的推动力”,CNBC,2022年5月26日,https://www.cnbc.com/2022/05/26/china和欧洲正在引领推动监管人工智能.htm。 第1部分:技术 什么是人工智能? 从Siri到特斯拉汽车,人工智能在大多数人的日常生活中变得越来越突出。虽然目前没有一个普遍接受的人工智能定义,但个别机构和组织经常提供自己的术语定义,以界定讨论和研究计划的范围。如前所述,人工智能通常是指机器的理论和应用,以执行通常需要人类智能的任务,无论是从推理还是运动的角度来看。 人工智能一词是在达特茅斯的一次会议上创造的3在1956年,并且由于人工智能系统越来越多地集成到基于消费者的技术、政府运营等方面,此后一直受到公众的关注。 人工智能与《星球大战》中全能的人类智能C-3P0或《终结者》中的杀手机器人相去甚远。今天的人工智能应用是狭窄的 ,这意味着它们旨在执行一项任务,无论是股票交易、下棋还是回应消费者投诉。人工总体智能(AGI)是上面列出的电影 中呈现的AI智能的范围;AGI描述了可以在领域(以及可能的方式,如语言和视觉)之间移动并最终更广泛地应用其智能的AI应用程序。虽然由于更强大的ML模型,窄AI和通用AI之间的距离正在缩小(参见下面的深度学习),但在不久的将来仍然无法预见真正的AGI。 是什么促成了人工智能的日益突出? 人工智能在我们的社会中变得越来越突出的部分原因是由于算法的提高和计算能力的扩展。技术能力(例如,计算能力,图形处理单元)的最新进展允许在整个行业和社会中提供更多用例。这种能力的提高可归因于: 1.更快、功能更强的计算机硬件,可以处理大型数据集,以执行复杂的操作(例如,卷积神经网络)。例如,人工智能系统现在可以在几秒钟内检查数千份医疗记录,以确定哪些症状表明存在癌症等疾病。 3RockwellAnyoha,“人工智能的历史”,新闻中的科学(博客),哈佛大学,2018年8月,2017年,http://sitn.hms。harvard.edu/flash/2017/history-artificial-intelligence/。 2.互联网及其海量数据(它正在成为训练、测试和应用AI的宝贵资源)以及最近共享计算资源的可能性(即云计算 )。这优化了资源分配,允许更快的扩展,并大大降低了计算成本。 3.传感器,可以实时监控各种类型的参数。例如,智能手表等可穿戴设备可以从任何位置收集重要信号,帮助监测患者健康状况并预测潜在风险。汽车上装满了传感器,可以主动提醒驾驶员维护要求。 4.物联网(物联网),这要归功于最近的网络进步(例如5G),允许从传感器收集数据,在云中处理并实时部署用于多个应用程序。例如,汽车可能会在低能见度环境中相互发送位置信号以避免碰撞。 5.先进的学习算法和体系结构,从而能够开发准确的模型,以更好地理解历史数据并识别可能再次出现的隐藏模式。 人工智能的机制 本节提供了AI背后机制的高级分类。虽然政策制定者可以从以下工具如何工作的一些知识中受益,但套用SendhilMullainathan的话来说,人工智能的机制只是等式的一小部分,就像了解发动机如何工作只是理解如何驾驶的一小部分一样。4因此,虽然本节简要解释了如何 人工智能系统的工作原理和该领域的常用术语,主要对人工智能产品应用感兴趣的读者可以跳过本节。人工智能系统可以根据方法和模型进行分类: 方法:有几种不同的技术方法来实现人工智能系统。下面,我们将介绍符号推理、经典机器学习和深度学习。这些不同 的方法对于政策制定者来说很有用,因为它们都为算法的决策提供了不同程度的可见性和透明度。 4SendhilMullainathan,“人工智能(32200)”,SendhilMullainathan,2023年2月9日访问,https://sendhil.org/courses/人工智能-32200/。 模型:ML可以是歧视性的,也可以是生成性的。判别模型(也称为分类器)对新数据进行分类(例如,图片代表马还是 狗,或者患者是否患有癌症)。生成模型创建属于这些类的新数据点(例如,它们可以生成马和狗的图像,或者可以从医学图像生成标题)。 生成式AI模型旨在创建新内容,例如文本、图像、音频和视频。由生成式AI模型驱动的消费者应用程序,如OpenAI的聊天机器人ChatGPT及其图像生成器DALL-E,最近引起了公众的注意。 生成模型使用机器学习算法来学习现有数据中的模式和结构,然后使用该知识创建样式和内容相似的新数据 。这些模型是根据人类反馈进行训练和微调的,因此使用得越多,它们就越好。有几种类型的生成模型,包括变分自编码器、生成对抗网络、自回归模型等。 与基于生成模型的人工智能工具相关的公共目的考虑因素,例如对劳动力和知识产权考虑的影响,在第 4部分:公共目的考虑中讨论。生成式人工智能对社会的影响将取决于它是如何开发、实施和监管的。 一个更深的潜水生成模型 方法来实现人工智能 符号推理(或符号AI/经典AI)是AI研究的一个分支 ,专注于明确表示人类知识 通过公理和规则的声明形式。相似性通常计算为知识图谱中的距离(例如,“狗”更接近 “动物”比“植物”)。符号AI在1980年代后期之后变得不那么流行,当时ML技术开始变得更加突出。 经典的机器学习(经典ML)是AI的一个子领域,它利用统计方法或数值优化技术来识别输入数据中的模式并将其与预期输出相关联。在经典ML中,输入数据需 要通过数字离散特征(例如颜色、大小、形状等)来表示。ML学习这些功能与预期输出之间的关联。 深度学习(DL)是ML的一个子领域,它通过利用人工神经网络进一步抽象表示,这是一种受以下启发的计算架构 人脑中的生物神经网络。虽然经典ML主要依靠离散特征来描述输入数据(颜色, 大小、形状等),深度学习(DL)可以自动生成神经表征 从原始输入数据。DL中的形容词“deep”是指DL算法由神经网络的多个通信层组成,每个层表示不同抽象级别的输入数据 (例如,在训练识别图像的DL算法中,第一层可以表示颜色,第二层可以表示边缘,最后一层可以表示形状)。 机器学习怎么样? 学习模式s:学习分为无监督(即自动观察数据点之间的相似性)、有监督(即通过人类注释数据)、弱监督(即通过半自动注释)或强化(即,使用“奖励函数”在尝试完成给定目标后向系统提供反馈)。其他派生范式包括对抗学习(即两个模型从相互挑战中学习)。5 注意:虽然了解各种学习范式很有帮助,但这些范式对政策制定者来说不一定是可操作的。我们试图向政策制定者强调,由于人工智能是 目前建立在从数据中学习的算法上,有偏见的数据集或内置在数据中的人为偏见可能会创建有偏见的人工智能系统。 •监督式学习:该算法学习输入数据中的模式与训练集中提供的预期“正确”答案之间的关联。6例如,教一个 计算机系统为了检测垃圾邮件,从业者会向算法提供手动标记为垃圾邮件或非垃圾邮件的电子邮件示例——开发人员实际上是“监督”算法的学习方式。 •无监督学习:该算法在数据中查找常见模式,目的是了解实体之间的相似程度。一个例子是向算法提供用户的社交媒体帖子,以发现哪些用户讨论类似的主题。基于无监督学习的方法更受欢迎,因为该算法不需要在昂贵的注释上进行训练。然而,截至今天,监督方法通常优于无监督方法,特别是当用户正在寻找特定结果而不是一般见解时。7 •Weakly-supervised学习:尽管监督方法通常优于无监督方法,但它们也是最昂贵的,因为标记需要由人类完成。弱监督方法用于通过混合监督和无监督技术来降低标记数据的成本。弱监督也经常被用来增加已经训练好的算法的更广泛应用和健壮性,并减轻偏见。 5对于视觉学习者,作者推荐J.D.Dulnyet第6页上的图表。al,TheArtificialIntelligencePrimer(McLean,VA:BoozAllenHamiltonInc.,2018),https://www.boozallen.com/s/insight/thought-leadership/the-artificial-intelligen