CONFI DENCE INAI Capgemini生成AI实验室的剧本 2024 对AI的成功,自信的采用不仅在创建AI工作上,而且在 创建可靠的AI,AI 符合人类期望,人工智能符合人们的最佳利益。 2GenAI实验室2024 3 工作的AI TABLEOF CONTENTS 经过验证准确性08 AI工作可靠 鲁棒性10 可靠性12 稳定性14 符合人类期望的AI 感性16 谦卑18 优雅地失败/推断明智的20 可解释性22 AI在人们的最佳利益中发挥作用 公平24 可持续性26 隐私28 4GenAI实验室2024 5 马克·罗伯茨 创成式AI实验室副主任 主编 罗伯特·恩格斯HeadGenerativeAILab主编 AI:成为好人很容易。现在我们需要有用 人工智能(AI)突然无处不在。强大的内容生成服务可能在12个月前被视为来自科幻小说领域,现在已成为从会议室到学校操场对话的重要组成部分。 这种兴趣上升的一个重要因素是生成性AI的兴起。在过去的12个月中 ,高调的生成性AI服务的出现将AI推向了头版。人工智能曾经被视为技术的利基领域,现在它被各种各样的人用于各种用途,无论是提问,编写文本还是生成照片和代码。 但是,不要将生成性AI的迅速崛起与革命混为一谈。尽管像ChatGPT这样的有效用户界面使强大的大型语言模型的访问变得民主化,但无论如何,向AI驱动的服务的转变正在发生。今天对生成性AI的兴趣仅仅是多年来幕后演变的可见体现。 更重要的是,几十年的经验让我们对关键的成功因素有了深刻的认识 ,如果我们要将对人工智能的兴趣转化为具有真正商业价值的东西,必须考虑这些因素。 了解投资规模 除了主导新闻议程的备受瞩目的生成服务外,每天都有各种各样的其他AI产品和服务在宣布,启动和销售。IDC研究人员报告说,到2023年,全球在AI上的支出,包括软件,硬件和服务,将达到 1540亿美元,比2022年的支出增长26.9%。 这位技术分析师表示,对人工智能的持续投资将意味着2026年的支出将超过3000亿美元。这笔现金已经为广泛的概念验证项目提供了资金 。无论他们是在使用人工智能来改善客户服务,解决科学和工程难题 ,还是识别欺诈性交易,公司都在投资数十亿美元 以相对较新的技术投入美元,试图获得超过竞争对手的竞争优势。 从外部看,对AI的投资看起来像是一个巨大的成功故事。这笔资金将创造有助于塑造技术未来的产品和服务 然而,也有一个缺点——就像所有新技术浪潮一样,并非所有这些投资都会有回报。 我们在凯捷的广泛客户群中看到了这种影响。许多AI项目,即使是显然成功的项目,也无法逃脱概念验证阶段。近年来的各种调查显示,AI项目的失败率高达80%。 出现的是一个矛盾:虽然许多组织认为对人工智能的大量投资将是商业上积极的,但大量的这些项目不一定会得到回报。那么,我们如何调和这两种截然不同的观点,并创造出商业上有用的人工智能计划呢 ? 改变我们衡量成功的方式 我们需要克服的关键挑战是,我们都以错误的方式衡量AI项目的成功。无论是使用AI的人,专家开发工具,还是媒体,分析师和投资者, 我们都陷入了一种集体错觉,即准确性是唯一重要的东西。 成功通常是通过在狭窄的基准测试中具有很高的准确性来衡量的,或者是令人印象深刻的或有趣的,而其他关键的成功因素-被忽略 ,因为它们没有被很好地理解,令人兴奋或吸引头条新闻。 当AI系统正确执行某些操作时,无论是由传统机器学习系统执行的简单分类,还是正确回答问题的生成AI工具,我们都会对这种准确性非常重视。 准确性是如此受人尊敬,以至于我们每天都会看到令人叹为观止的头条新闻,宣称新系统在特定问题上实现了高水平的准确性。“90 %准确”或99%或99.9%的数字被抛出- 结论:让AI对每个人都有用 我们现在看到,准确地解决任务只是12个同样重要的因素之一,帮助每个人对他们使用的人工智能产品和服务更加自信。 越多越好,这就是对高精度的痴迷。然而,对于该领域的专家来说,这种对准确性的痴迷既幼稚又无益, 因为它将注意力从对长期成功真正重要的因素中转移开。在大多数现实世界的部署中,AI系统失败的严重程度远比成功的频率更为重要 。在现实中,99.99%准确的AI系统可以被视为如果0.001%的故障是灾难性的,则完全故障。 准确性并不是唯一的重要因素,它当然也不是大多数AI项目失败的主要原因。AI项目的商业成功取决于多种因素的复杂组合,这些因素往往被忽略或降级为次要问题。 但是,这些所谓的次要问题实际上对成功至关重要。这些因素与准确性一样重要,也许更重要,因为它们通常是有问题的行为和失败的AI投资背后的根本原因。在此概述的这些成功因素必须在 任何人工智能系统的开发和实施,因为它们将在系统的用户和推动和支付的领导者之间灌输信心: AI的工作原理 •经过验证的准确性-通过基准测试来衡量,擅长解决问题。 我们不应该错误地认为谦逊,可持续性和可靠性等元素是无聊的 AI努力的次要要素。虽然专注于这些因素不会产生来自AI生成的图像或文章的兴奋,但它将确保您的业务创建的输出是可信和有用的。一旦 随着时间的推移,失败的机会将减少,采用的水平将增加,商业成功的可能性将大大提高。 AI工作可靠 •健壮性-有效处理异常或恶意输出。 •可靠性-始终在所需的时间范围内产生输出。 •稳定性-性能是一致的,不会随着时间的推移而漂移。 与人类期望一致的AI •感性-根据世界或社会的运作方式做出决定。 •谦卑——理解自己的局限性,拒绝回答不知道答案的问题。 •合理地推断/优雅地失败-当面对超出训练和安全失败的场景时 ,采取明智的行动。 •可解释性-可以证明它是如何解决问题的,而不是作为一个神秘的黑匣子工作。 AI符合人们的最佳利益 •公平-无偏见。对所有子群体都是同样公平的。 •可持续性-最大限度地减少培训和持续使用的有害影响。 •隐私-保护被训练的敏感数据。 随着人工智能在我们的生活中扮演着越来越重要的角色,人们必须对他们使用的解决方案充满信心。 确保始终考虑这12个因素将意味着您的业务从AI中提供重要的商业价值。在本手册中,我们将更详细地讨论这12个因素中的每一个。 6GenAI实验室2024 我们现在认识到的事情对于使AI成功至关重要 稳定性 性能不会在不知不觉 中漂移 随着时间的推移 感性 根据世界/自然/物理/文化的 运作方式做出决定 人们在AI中通常关注的事情 可靠性 将始终在所需的时间范 围内产生输出 鲁棒性 将处理异常或恶意 输入井 经过验证的准确性 它善于解决问题,通过测试测量? 可持续性 培训和持续使用的影 响不是有害的 AI解决方案中的信心/信任 谦卑 拒绝回答,或者至少在不 知道某事时报告 合理地推断 当面对超出其训练范围的看不见的 数据时,会做一些明智的事情 优雅地失败 如果它失败了,它会以安全 和合理的方式失败吗? 可解释性 它能解释/证明它是如何解 决问题的吗? 隐私 公平 输出不偏向任何子组不会泄露敏感数据 AI的工作原理 AI的工作原理可靠AI在人们的符合人类期望的AI 最佳利益 7 已证明的准确性 TIjanaNIKOLI♪ 居住专家 我们什么时候可以说人工智能足够好?“好”是什么意思? 传统上,机器学习模型的性能只能通过狭窄的测试和验证分数来评估。 然而,对生成人工智能的新关注及其创造力和幻觉迫使我们重新考虑准确性的真正含义,或者准确性在这个新世界中是否甚至相关。简单的准确性度量对我们来说不再足够好 作为决策的基础,因为我们使用的不同准确性度量会极大地影响我们如何解释其输出 。 也必须考虑现实世界的维度。模型可能在测试中表现异常,但在应用于现实世界的场景时却失败了。这种差异突出了对善的全面定义的重要性-包含了各个方面,例如道德含义,社会影响以及与人类价值观的一致性。 8GenAI实验室2024 为什么? •任何参与人工智能决策的人都需要了解它的性能,无论是系统的用户 ,还是设计、构建和资助它的人,都是如此。 •这种需要了解性能使得非常需要创建一个单一的,易于消化的数字-准确性,这代表了该性能概况。 •然而,在几乎所有情况下,没有一个数字可以告诉你机器学习系统的整体表现,所以我们经常需要使用多个指标来描述性能概况。 •即使我们可以在一个数字中捕捉到一个模型的“好”程度,这也是不够的,因为“好”是一个主观术语。 •理解人工智能成功的多方面本质是至关重要的,因为过度关注任何一个方面都会带来潜在的后果。 •在某些情况下,专注于错误类型的准确性可能会导致现实世界的伤害。例如,英国的一项乳腺癌筛查研究表明, 对错误准确性的关注导致过度诊断,许多妇女不必要地接受痛苦和压力的治疗。 什么? •考虑AI计算机视觉系统对100个对象(苹果或橙子)进行分类的简单准确性度量。我们可以计算出准确性 通过测量正确分类的百分比。 •然而,只有在有确切地说中相同数量的项目 两个类。然而,如果苹果比橘子多,一个简单的百分比准确度数字将不能准确反映分类器的性能。在极端情况下,如果有99个苹果和一个橘子, 和分类器总是说“苹果”,它的天真准确率将是99%,即使它没有能力检测到类之间的差异。 •出于这个原因,使用了更复杂的统计度量,通常如精确度和召回率 ,或灵敏度和特异性。这些度量描述了准确性的不同方面,显示了它在正面和负面预测中的表现,可重复多次使用。 •然而,即使使用这些更复杂的措施,如准确性,准确性和召回并不意味着你的模型的现实世界的成功得到保证。 •事实上,正如我们将在本Playbook中展示的那样,基准测试的准确性只是成功的许多同样重要的方面之一,必须考虑这些方面,以便不仅在纸面上取得成功,而且要与对该系统有信心的用户取得真正的现实成功。 建议 •首先,确保您有效地测量和传达准确性。准确性极不可能由单个数字表示,因此请使用更适当的度量来设置用户对系统性能配置文件的期望。 •不要使用简单的准确性作为在AI系统中宣布成功的唯一标准。 •教育企业中的每个人如何谈论人工智能系统的准确性。努力创造一种文化,让每个人,直到董事会,都能舒适地提出关于灵敏度和特异性、精确度和召回等问题。 •除了准确性,整体方法是必要的。组织必须在人工智能的努力中拥抱透明度、道德和公平。考虑使用像这样的剧本,提醒参与人工智能系统设计的每个人思考导致人工智能成功的多个方面,而不仅仅是准确性。 •主要的陷阱之一是对技术指标的近视关注。忽略训练数据中的偏见 ,忽略 道德含义或忽略社区反馈可能会导致灾难性的结果。例如,上下文适合性无法轻易衡量。但这是“善良”的最终定义因素 LINKS •使用ReLM验证大型语言模型。Kuschnick等。卡内基梅隆大学,523。https://arxiv.org/pdf/2211.15458.pdf •Langchain博客文章:“LLM评估者如何正确”,对促进测量“经过验证的准确性”的可能性提出了问题。https://blog.langchain.dev/how-correct-are-llm-evaluators/ •关于提示,写作风格和回答质量的GEDLT项目GDELT项目是全球人类社会开放研究的实时网络图和数据库: https://blog.gdeltproject.org/large-language-models-llms-行星尺度-realtime-data-current-limitations/ P R O V E N A B I L I T Y 9 健壮 MITALIAGRAWAL 居住专家 AI系统会始终以一致的方式响应类似的输入吗?它可以应对输入中故意的恶意攻击吗?所有这些问题都与鲁棒性的概念有关-衡量AI系统在接收到的信号与所训练的信号不相同时的表现。 健壮性是可靠的AI系统的基石,可确保面对逆境时的韧性。