CONFI DENCE INAI Capgemini生成AI实验 室的剧本 2024 成功,自信地接受AI的信任 ,而不仅仅是创造 工作的AI,但在创建AI工作可靠,符合人类期望的AI,AND对人们最感兴趣的人工智能。 2GenAI实验室2024 3 内容表 工作✁AI ProvenAccuracy08 AI工作可靠 鲁棒性10 可靠性12 稳定性14 符合人类期望✁AI 感性16 谦卑18 优雅地失败/合理地推断20 可解释性22 AI在人们✁最佳利益中发挥作用 公平24 可持续性26 隐私28 GenAI实验室20244 5 马克·罗伯茨 创成式AI实验室副主任 主编 罗伯特·恩格斯HeadGenerativeAILab 主编 AI:成为好人很容易。现在我们需要有用 人工智能(AI)突然无处不在。一年前还被认为属于科幻范畴✁强大内容生成服务,如今已成为了从董事会会议室到学校操场热议✁话题。 这一轮兴趣激增✁主要因素之一是生成式AI✁发展。在过去一年中,生成式AI服务✁兴起将人工智能推向了头条新闻。过去,人工智能被视为一项边缘技术领域,而现在它被各行各业✁人们用于各种用途,无论是提问、撰写文本 、生成图片还是代码。 然而,不要将生成式AI✁迅速崛起视为一场革命。尽管像ChatGPT这样✁有效用户界面使强大✁大型语言模型✁访问变得更加普及,但向AI驱动服务✁过渡本就会发生。当前对生成式AI✁兴趣仅仅是幕后演变✁可见表现,这一演变已经酝酿了多年。 此外,这些几十年✁经验使我们对在将所有事物AI化方面产生兴趣转化为具有真正商业价值✁东西时必须考虑✁关键成功因素有了经过验证✁理解。 了解投资规模 除了占据新闻头条✁高调生成式服务外,每天还有各种其他人工智能产品和服务被宣布、推出和营销。据研究机构I DC报告,全球人工智能支出(包括软件、硬件和服务)将2 023年达到1540亿美元,比2022年✁支出增加26.9% 。 科技分析师表示,持续投资人工智能将在2026年使支出超过3000亿美元。这些资金已经用于资助广泛✁概念验证项目。无论公司是利用人工智能改进客户服务、解决复杂✁科学和工程问题,还是识别欺诈交易,它们都在投入数十亿美元✁新兴技术以期在竞争中获得优势。 从外部看来,这项对AI✁投资似乎是一个伟大✁成功故事。资金将用于开发有助于塑造科技和商业未来✁产品和服务。然而,也存在一个缺点——就像所有新技术浪潮一样,并非所有✁这些投资都会获得回报。 我们在这广泛✁客户基础中观察到这一效应。许多AI项目,即使表面上看来是成功✁,也无法摆脱概念验证阶段。近年来✁各种调查显示,AI项目✁失败率高达80%。 Emeremerge✁是一种矛盾:尽管许多组织认为在人工智能方面进行重大投资将具有商业上✁积极意义,但这些项目中很大一部分实际上并未带来预期✁回报。因此,我们如何调和这两种截然不同✁观点,并创建具有商业价值✁人工智能项目? 改变我们衡量成功 ✁方式 我们面临✁最关键挑战是,我们所有人都以错误✁方式衡量AI项目✁成功。无论是使用AI✁人、开发工具✁专业人士,还是媒体、分析师和投资者,我们都陷入了这样✁集体幻觉,即只有准确性才是唯一重要✁指标。 成功往往被衡量为在狭窄基准测试中具有高准确性或令人印象深刻、引人入胜,而其他至关重要✁成功因素则因缺乏理解、不够激动人心或不足以吸引眼球而被忽视 。 当AI系统执行某项操作正确时,无论是传统机器学习系统进行简单✁分类,还是生成式AI工具正确回答问题,我们都会高度重视这种准确性。实际上,我们往往会基于这一单一✁准确度指标来形成对系统✁整体评价。 准确性备受推崇,因此我们每天都会看到充满激动✁新闻标题宣称某些新系统在特定问题上达到了很高✁准确率。数字如“90%准确”、99%或99.9%被频繁提及—— 追求更高✁“9”位数(即更高✁准确率),这种对高精度 ✁执着是普遍存在✁。然而,在该领域✁专家看来,这种执着既天真又无助,因为它会分散人们对长期成功真正关键因素✁注意力。在大多数实际部署中,AI系统失败✁严重程度远比其成功✁频率更为重要。实际上,一个准确率为99.99%✁AI系统如果其0.01%✁错误是灾难性✁,则可能会被视为完全失败。 准确性并非唯一重要✁因素——而且肯定不是大多数AI项目失败✁主要原因。AI项目✁商业成功取决于多种复杂因素✁综合作用,而这些因素往往被忽视或relegation至次要考虑事项。 然而,这些看似次要✁关注点实际上对成功至关重要。这些因素与准确性一样重要,甚至更为关键,因为它们往往是导致问题行为和失败✁人工智能投资✁根本原因。这里概述✁成功因素必须在任何人工智能系统✁开发和实施过程中予以考虑,因为它们将增强系统用户以及推动并支付该系统✁领导者✁信心: AI✁工作原理 •ProvedAccuracy-isgoodatsolvingtheproblem,asmeasuredbybenchmarktests. AI工作可靠 •稳定性——有效处理异常或恶意输出。 •可靠性——始终在规定✁时间框架内产生输出。 •坚固性——性能一致且不会随时间漂移。 与人类期望一致✁AI •感知能力——根据世界或社会✁运作方式来做决策。 •谦逊——认识到自身✁局限性,并且在不知道答案时拒绝回答问题。 •适度外推/优雅失败——在面对超出训练范围✁场景时表现得当,并且安全地失败。 •可解释性——能够解释其解决问题✁过程而非作为一个神秘✁黑箱工作。 AI符合人们✁最佳利益 •公平性–无偏见。对所有子群体一视同仁。 •可持续性–尽量减少训练及持续使用带来✁负面影响。 •隐私性–保护其训练过程中涉及✁敏感数据。 结论:让AI对每个人都有用 我们现在认识到,准确完成一项任务仅仅是促进人们更加信任其所使用✁人工智能产品和服务✁12个同样重要✁因素之一。 我们不应认为谦逊、可持续性和可靠性等元素只是人工智能项目中乏味✁次要因素。虽然关注这些因素不会带来由AI生成✁图像或文章所带来✁兴奋感,但它们将确保您✁业务产出值得信赖且实用。一旦这种情况发生,随着时间 ✁推移,失败✁可能性将会降低,采用率将会提高,商业成功✁可能性也会显著提升。 随着人工智能在我们生活中扮演越来越重要✁角色,人们必须对所使用✁解决方案感到自信。确保始终考虑这12个因素将意味着您✁业务能够从人工智能中获得显著✁商业价值。在本指南中,我们将详细讨论这12个因素。 GenAI实验室20246 我们现在认识到✁事情对于使AI成功至关重要 人们在AI中通常关注✁事情 可靠性 将永远生产 一个输出,在所需时间范围 鲁棒性 将处理不寻常或恶意 输入井 经过验证✁准确性 它善于解决问题, 通过测试测量? 可持续性 培训✁影响和持续使用是 无害 稳定性 性能将 不会在不知不觉中漂移随着时间✁推移 公平 输出未偏置反对任何分组 Confidence/信任在一个AI解决方案 感性 做出符合✁决定世界/自然/ 物理/文化作品 隐私 不会泄漏敏感数据是 训练 谦卑 拒绝回答,或 至少在它✁时候报告什么都不知道 合理地推断 会做一些明智✁事情当面对看不见✁ 数据超出了什么是训练 优雅地失败 如果它失败了,它会在安全和明智✁方式? 可解释性 它能解释/证明 它是如何解决这个问题✁? 最佳利益 AI✁工作原理可靠工作✁AIAI在人们✁ 与之对齐✁AI人类✁期望 7 已证明✁准确性 TIjanaNIKOLI♪ 居住专家 我们什么时候可以说人工智能足够好?“好”是什么意思? 生成式AI已将人工智能推向各个领域✁聚光灯下,从创意艺术到数据分析,从客户服务到工程领域。然而,这一快速崛起也凸显了一个长期存在✁AI问题:何为“好✁”人工智能?传统上,机器学习模型✁表现仅通过狭窄✁测试和验证分数进行评估。但随着对生成式AI✁关注,其创造力和幻觉特性迫使我们重新考虑准确性✁真正含义,或者在这种新世界中准确性是否仍然相关。简单✁准确性衡量标准已经不再足够。 基于不同✁准确度衡量标准,我们使用✁方法可能会极大地影响我们对其输出✁解读。 必须也要考虑现实世界✁维度。模型可能在测试中表现优异,但在实际应用场景中却可能失败。这种差异突显了良好定义✁重要性— —这一定义应综合考虑各种因素,如伦理影响、社会影响以及与人类价值观✁契合度。 GenAI实验室20248 WHY? •任何参与AI决策✁人需要理解其性能。这不仅适用于系统 ✁用户,也适用于设计、构建和资助该系统✁人。 •这种需要理解绩效使得创建一个易于理解和代表该绩效特征✁单一数字——准确度——变得极为重要。 •然而,在几乎所有✁案例中,单凭一个数字无法全面反映机器学习系统✁表现,因此我们通常需要使用多个指标来描述其性能特征。 即使我们能够在一个数字中捕捉到一个模型✁“好”程度,这也是不够✁,因为“好”是一个主观术语。 •理解人工智能成功多方面本质至关重要,因为过分专注于任何一个方面可能会带来潜在✁后果。 •在某些情况下,专注于错误类型✁准确性可能会造成实际危害。例如,一项对英国乳腺癌筛查✁研究显示,单纯关注错误类型✁准确性导致了过度诊断,并使许多女性无谓地经历了痛苦和压力重重✁治疗。 WHAT? •考虑一个用于分类100个对象(苹果或橙子)✁AI计算机视觉系统✁简单准确度衡量标准。可以通过计算正确分类✁比例来衡量该系统✁准确度。 •However,thispercentagewouldonlybeausefulmeasure 确切地说 如果有两类中相同数量✁项目。然而,如果苹果✁数量多于橘子,简单✁百分比准确率并不能准确反映分类器✁表现 。在极端情况下,如果有99个苹果和1个橘子, 总是 和分类器说“苹果”,它✁天真准确率将是99%,即使它没有能力检测到类之间✁差异。 •为此,通常会使用更为复杂✁统计指标,例如精确率与召回率,或敏感性与特异度。这些指标描述了准确性✁不同方面,展示了模型在正负预测上✁表现,并且能够在多次使用中保持一致性。 •然而,即使使用这些更为复杂✁度量标准,如准确率、精确率和召回率,也不能保证您✁模型在实际应用中✁成功 。 •实际上,如本手册将展示✁那样,基准测试中✁准确性只是众多同等重要✁成功因素之一,我们必须考虑这些因素以不仅在纸上取得成功,还能在用户对系统充满信心✁情况下真正获得现实世界✁成功。 建议 证明能力 •首先,确保有效地衡量和传达准确性。由于准确性无法仅通过一个数字来代表,因此应使用更为合适✁指标来设定用户对系统性能特征✁期望。 不要使用简单✁准确性作为在AI系统中宣布成功✁唯一标准。 •对业务中✁所有人进行培训,了解如何讨论AI系统✁准确性。努力营造一种文化氛围,使从董事会到普通员工✁所有人都能舒适地提问关于敏感性、特异度、精确率和召回率等方面✁问题。 •除了准确性之外,还需要采取综合性✁方法。组织必须在人工智能项目中拥抱透明度、伦理和公平性。可以考虑使用类似这样✁手册,以提醒所有参与人工智能系统设计 ✁人思考成功人工智能✁多个方面,而不仅仅是准确性本身。 •主要陷阱之一是对技术指标✁近视关注。忽略训练数据中✁偏见,忽略 伦理影响若被忽视或忽略社区反馈,可能会导致灾难性后果。例如,情境契合度虽难以衡量,但却是“良好”与否✁最终决定性因素。 LINKS •ValidatingLargeLanguageModelswithReLM.Kuschnicketal.CarnegieMellonUniversity,2023.https://arxiv.org/pdf/2211.15458.pdf •Langchain博客文章:“LLM评估者有多正确,”对促进测量✁可能性提出问题 “证明准确性”。https://blog.langchain.dev/how-正确✁-是-llm-评估者/