不得重复 将CXTextAnalytics的经验教训应用于生成AI 2024年1月 AUTHORS FionaMossRichTimpone博士 IPSO S视图 而在新的格局中,从文本分析的过去学习将确保我们不会重蹈覆辙,并能够最大限度地利用新工具。 持续进行的客户体验(CX)项目,提供关键主题和情感的识别与量化,涵盖有索引的反馈(例如开放式问题)和无索引的反馈(例如社交媒体反馈)。 #IPSOSHiAi 在伊普索斯,我们推崇人类智能(HumanIntelligence,HI)与人工智能(ArtificialIntelligence,AI)的独特结合,以推动创新并为客户提供具有影响力、以人为本的洞察。 我们的HI源自我们在快速工程、数据科学方面的专长以及我们独特且高质量的数据集——这些数据集嵌入了创造力、好奇心 、伦理和严谨性,由我们的IpsosFacto生成AI平台驱动。 Ge 我们的客户受益于更安全、更快速且植根于人类环境的见解。 让我们释放HI+AI的潜力! 生成式人工智能(AI),以ChatGPT为例 ,迅速民主化了基于文本的人工智能的力量。简而言之,任何拥有互联网访问权限的人都可以向这些超智能的机器人提问并获得响应。这些工具还使得文本分析在众多领域得到了广泛的应用。 用例。尽管我们处于一个新的环境中,从文本分析的过去中学习将确保我们不会重蹈覆辙,并能充分利用新工具发挥其最大优势。通过这种方式,我们可以从历史中吸取教训,从而在抓住新机遇时不致于重犯错误。 鉴于我们专注于文本分析,在本文中讨论生成式AI时,我们通常指的✁大型语言模型 (LLMs)。LLMs✁一种概率性的文本生成工具,也就✁说,它们经过训练,能够根据提示预测最有可能跟随其后的单词或标 记序列——从而给人以“人类”对话的印象。1然而,这些经验也可以✲应用于许多实际的 文字分析场景中。在这里,从前人在该领域的经验中学到的东西尤其有用,尽管从高层次来看,这些学习成果也适用于其他类型的生成式AI,包括图像和多模态模型。 语言模型(LLMs)在文本分析领域的democratization与早期阶段形成了鲜明对比。2009年,当益索普(Ipsos)的客户体验(CX)部门刚开始涉足这一领域时 ,情况截然不同。 团队最早开始提供文本分析服务时,这还✁一个利基产品,仅✲少数寻求高效理解大量非结构化或文本数据的客户所使用。快进超过10年,文本分析已经成为大多数大型企业的标准工具。 利用过去 在伊普索斯,我们一直运用“真实、美好、公正”的框架来评估生成式AI模型的质量及其负责任的使用方式。2.这进一步强调了从过去学习的重要性,尽管该框架最初 ✁为了适应较早时期的AI模型以理解社会和行为态度、过程和行动而设计的,但其在新的工具generation中仍然同样相关,在某些情况下甚至更为相关。3,4. 在这个框架中: •真实性关注模型及其输出的准确性;•美感涉及输出的可解释性,在某些应用场景中还包括产生惊喜和新见解的能力;•正义涵盖多个重要领域——人工智能伦理、偏见以及算法公平性。 鉴于生成式AI✲全球采纳的速度之快,其在文本分析领域的探索和应用将比以往任何工具都要迅速。尽管我们都✲生成式AI及其大型语言模型(LLMs)的巨大潜力所震撼,但从过去文本分析测试和应用中汲取的经验教训有助于组织在未来自信地设计并交付盈利、可持续且积极的客户体验。 公平性、数据安全与隐私保护,以及用于训练的数据创作者和工具使用者的权利与责任。 有了这一框架作为背景,在本文中,我们概述了五项仍然适用于团队应用基于LLM的生成AI工具的关键见解: 1.需求透明度 2.不要忘记数据 3.正式评估仍然很重要 4.记住管理期望 5.建立报告/使用机制满足业务需求。 2IPSOS视图|不得重复不重复|IPSOS视图3 1.需求透明度 在文本分析的早期阶段,行业中充斥着大量的行话和炒作。解读外来的术语并区分众多声称拥有最佳解决方案的供应商往往成为首次使用时的障碍。 虽然生成式AI创造了一些自己的术语和hype,尤其✁提高了对大型语言模型(LLMs 建议始终✁,并且继续✁,要求服务提供商清晰地阐述其输出、限制以及优势 。这种透明度✁Beauty的重要组成部分 。 对于LLM,这些注意事项包括: •证据表明该模型✁否会继续从新数据中学习和适应,或者该模型✁固定的,需要重新测试应用程序以确保它们仍然像之前测试时那样性能良好,因为更新可能已在某些领域导致了质量下降。5;•关于您的数据如何反馈到任何此类更新和模型训练中;•现有业务系统如何利用LLM——包括API访问、数据工程师构建链接等能力— —以便LLM能够按照业务意图进行操作性使用。 尽管许多语言模型(LLMs)表现出明显的灵活性和似乎的智能,从一开始就明确界定的商业和研究目标对于部署仍然✁必不可少的。因此,在从初始模型训练到研究成果交付的整个过程中保持人类参与至关重要,即使✁那些通过人类反馈进行强化学习的基础 (预训练)模型也不例外。‘人在回路’可以提高这些模型的质量——因为幻觉始终存在风险——从而确保结果的准确性。将人类智能与人工智能相结合✁伊普索斯(Ipsos)人工智能哲学的核心。 然而,对于大型语言模型(LLMs) ,透明性不仅需要体现在模型的能力和工作机制上,还需要理解企业提供给模型的数据将如何用于生成输出。 鉴于此,数据隐私和安全已成为许多开放访问模式的主要关注点,并在使用条款中予以突出。我们鼓励买家制定企业合同、治理架构和基础设施,以确保敏感的客户 、员工和专有数据和信息得到充分保护。许多公司,包括谷歌,现在要求其团队不要使用任何包含敏感数据的公开聊天机器人,如ChatGPT和Bard。6理解所考虑解决方案的隐私和安全条款对于风险管理以及在自由使用这项新技术时的企业舒适度至关重要。 )的认识,但它通过将免费访问的用户界面技术直接置于潜在用户手中,绕过了某些障碍。这些界面和AI使它们比过去更加易于访问且不那么令人望而生畏,但它们并不适用于所有应用场景,而它们✲提示的方式将影响所产生内容的质量。再次强调,作为概率性文本生成工具,它们的应用可能成为文本分析应用场景中的一个问题。 随着组织机构着手制定基于企业的访问合同、清洁房间/封闭花园等措施,将这项技术嵌入到日常运营中,Ipsos的 •模型明确的功能说明(无论供应商有何声明,我们强烈建议您自行测试或参考他人验证,因为LLM在不同应用场景下的准确性会有所差异)。 •对用于训练模型的数据的性质和数量 尽管许多大型语言模型(LLMs)表现出明显的灵活性和似乎的智能,但从一开始就仍需明确界定业务和研究目标以进行部署。 (以及任何限制)的理解对于识别直接源自语料库的见解和超出部分的见解至关重要。两者都有可能产生幻觉 ——即陈述为“事实”的信息实际上✁技术发明的谬误,但风险程度不同; 45 2.不要忘记数据 垃圾-垃圾-垃圾-垃圾-垃圾-垃圾 垃圾的垃圾模式(GIGO在美国)一直✁正确的文本以及 所有类型的分析都依赖于各类文本分析。事实上,所有的文本分析都✁基于训练数据的功能。从根本上说,如果涉及的数据不具备代表性或与您的业务问题无关,或者不包含足够的细节来回答该问题,则无法实现有效的分析。 c那么文本分析就不会违背你的目标7但这 ✁因为数据本身而不✁分析。 基础模型的建立。虽然这些答案可能提供一些有趣的假设,但它们并不构成真正的洞见,并且有可能造成更大的误导。 然后隐含的信任✁训练数据能够产生可靠的结果,这些结果可以用于指导业务决策 。但我们知道,在基础性的大型语言模型 (LLM)中存在文化和群体偏见,这些偏见反映了互联网上的情况。对于团队自己训练模型而言,数据的质量和代表性问题至关重要。 对于大型语言模型(LLMs),这一范式仍然适用。确实,我们需要确保用于分析的文本数据以及用于训练LLM的文本数据都 ✁合适的。除了这一基本原则,在特别进行模型训练或微调时,工具会外推超出所用数据范围的答案。 为了在部署前获得一定程度的信任并提高可解释性,理解用于训练LLM的数据至关重要。数据的质量和数量将决定LLM✁否能提供正确的响应。不足、缺失或有偏见的数据将影响模型的性能和可靠性。 可能会导致不准确甚至误导的结果。这与对正义和真相的基本评估和考虑需求紧密相关。 当使用LLMs(即用户与机器之间预期进行基于文本的交互时),也需要了解来自供应商的最佳和最准确响应所引发的提示和问题——正如在文本分析中选择开放性问题以邀请精确和详细的回应或未请求的数据源以提供相关和有条理的内容一样。 或者构建多个本地语言的文本分析模型,但在过程中可能会失去一些一致性和可比性。后者的好处在于能够针对涉及的市场进行专门定制,而前者则能带来成本和效率上的节省,并且便于跨市场的分析。最近,我们在伊普索情感框架的跨文化数据库建立中一直在解决这个问题,以基础的情感要素为基础。8. 在客户体验(CX)领域,所有关于透明性和数据的尽职调查都✁必要的,以在允许基于LLM的工具之前建立信任: •访问客户或业务数据;•直接与客户互动 (例如,通过增强的聊天机器人);•协助员工完成工作(例如,向前线员工推荐行动方案或提供来自大量数据汇总的信息以支持业务策略)。 如果没有采取这种尽职调查措施,則存在過高的風險,可能會-breach客户信任/或Deliver一個不正確或次標準的客戶體驗。 母语注意事项 对于跨多个市场运营的企业而言,本地语言始终✁文本分析的一个考量因素。关键决策在于✁在所有评论中构建一种统一的语言文本分析模型,还✁使用自动化翻译将所有评论转换成同一种语言; 语言也✁对大型语言模型(LLMs)的一个考量因素。尽管许多模型在训练过程中接触到了多种语言的数据源——在某些情况下甚至涉及数百种不同的语言,但这并不意味着它们在每种语言上的表现水平相同 。由于进行了母语训练,对于相同的提示 ,在不同语言中获得的质量和响应可能会有显著差异。 在一个关于生成式AI工具在视频音频轨道转录、翻译、情感分析等应用场景的质量测试中, 如果涉及的数据不具有代表性或与业务问题无关,或者不足以回答该问题,则文本分析将无法实现您的目标。 67 并且由Ipsos研究人员进行的内容主题化分析表明,不同的人工智能语言模型(LLMs )和提供商的表现存在显著差异,并且这 使用第二种语言的LLM以充分发挥其潜力 。因此,识别将使用LLM的人群、使用方 式,以及鉴于提示创建的重要性,他们✁ 3.正式评估仍然很重要 种差异跨语言尤为明显。9因此,在评估LLMs时,需要对每个应用场景和语言进行质量检查,以确定它们各自的相对和绝对准确性,并判断其✁否适用于特定用途。 因此,就像文本分析一样,识别您希望使用的语言并确保LLM能够以适当的方式支持这些语言✁至关重要的。在某些情况下 ,这可能意味着要求用户以某种方式与模型互动。 否具备所需的语言技能(尤其✁如果您的客户可能与该工具进行直接交互时)也至关重要。 因此,使用您选择的技术来充分利用它现在和2009年一样重要。 我们核心的信息,也✁“真理、美好与正义”维度的基础假设✁,生成式AI需要以与文本相同严格的标准进行评估。 banalytics已经持续多年。鉴于它们的定性构建和概率性构建,LLMs(大型语言模型)往往更多地通过表面效度——即输出 ✁否显得合理——而非正式审查来进行评估。我们从这些经验中学到的关键之一✁ ,要从banalytics中获得最大的价值,pas文本分析,必须系统地评估特定用例的质量。 图1提供了一种框架,用于评估情感分析和其他文本分类的质量。这些评估超越了简单的百分比准确率分数,系统地理解整体质量以及可能存在的问题所在。10为了创建这样的测试,在与地面真实基准指标进行评估后需要进行评价。虽然在过去这 ✁标准做法,但在大语言模型(LLM)中却较为罕见。然而,我们