您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[世界银行]:使用大型语言模型进行定性分析可能会引入严重的偏见(英) - 发现报告
当前位置:首页/行业研究/报告详情/

使用大型语言模型进行定性分析可能会引入严重的偏见(英)

文化传媒2023-11-01世界银行淘***
使用大型语言模型进行定性分析可能会引入严重的偏见(英)

授权公开披露 授权公开披露 政策研究工作文件10597 使用大型语言模型进行定性分析可能会引入严重的偏差 JulianAshwinAdityaChhabraVijayendraRao 发展经济学发展研究小组2023年11月 政策研究工作文件10597 Abstract 大型语言模型(LLM)正在迅速变得无处不在,但对社会科学研究的影响尚未得到很好的理解。本文询问LLM是否可以帮助我们分析来自开放式访谈的大量定性数据,并将其应用于孟加拉国Cox'sBazaar的流离失所罗兴亚人访谈的笔录。分析发现,在使用LLM注释文本时需要非常谨慎,因为存在引入偏见的风险,这可能导致误导性推论。这里指的是技术意义上的偏差,即错误。 LLM在注释面试成绩单时所做的就面试对象的特征而言不是随机的。在具有灵活编码的高质量人类注释上训练更简单的监督模型导致比LLM注释更少的测量误差和偏差。因此,考虑到一些高质量的注释是必要的,以便评估LLM是否引入偏差,本文认为,在这些注释上训练定制模型可能比使用LLM进行注释更可取。 本文是发展经济学发展研究小组的产品。这是世界银行为开放其研究并为世界各地的发展政策讨论做出贡献的更大努力的一部分 。政策研究工作文件也发布在http://www.worldbank.org/prwp的Web上。可以通过vrao@worldbank.org与作者联系。 政策研究工作文件系列传播了正在进行的工作结果,以鼓励就发展问题交换意见。该系列的目标是快速得出发现,即使演示文稿还不够完善。论文带有作者的姓名,应相应地引用。本文表达的发现、解释和结论完全是作者的观点。它们不一定代表国际复兴开发银行/世界银行及其附属组织的观点,也不代表世界银行执行董事或它们所代表的政府的观点。 由研究支持团队制作 使用大型语言模型进行定性分析可能会引入严重的偏差∗ 马斯特里赫特大学AdityaChhabra世 界银行 VijayendraRao†世界银行 关键字:大型语言模型,定性分析,ChatGPT,Llama2,文本即数据,愿望,罗兴亚人,孟加拉国 JEL代码:C63C89O1 1Introduction 大型语言模型(LLM)在社会科学研究中越来越多地用于分析和注释文本数据(Gilardi等人。,2023年)。随着LLM变得越来越容易获得和流行,我们可以预期,将会有一种诱惑来使用它们来分析开放式访谈数据,例如遵循解释性分析方法的定性研究人员(Small和Calarco,2022)使用的数据。这依赖于训练有素的社会科学家进行的仔细,细致入微的编码(DeterigadWaters,2018)。这种定性分析是人类学和社会学等领域的核心,现在有大量关于使用自然语言处理(NLP)方法分析社会学定性数据的文献正在迅速扩展(Boiowsi和Nelso,2022年),定性分析和NLP现在也越来越多地应用于经济学等更定量的领域(Rao,2023)。 从开放式的,深入的访谈中生成的数据可能与NLP文献中经常使用的基准数据集非常不同,以验证诸如英语推文和新闻或产品评论之类的建模方法。这是因为定性研究通常在 ∗作者感谢世界银行的“变革知识计划”和世界银行-难民署强迫流离失所联合数据中心的财政支持。SudarshanAittreya为该项目提 供了宝贵的研究援助。 †通讯作者:vrao@worldbank.org 特定上下文对解释数据很重要的方式,并使用“灵活”开发的代码进行分析,这些代码可以非常细微和复杂。这在非西方社会中是一个特殊的问题,因为LLM已被证明与来自西方,受过教育,工业化,富裕和民主(WEIRD)社会的人最相似(Atari等人。,2023),我们的示例应用程序属于这一类。我们采访了一个非常具体的主题(儿童的愿望 ),涉及非常具体的人群(罗兴亚难民及其在孟加拉国的东道主),他们在LLM培训的培训数据(或NLP文献中使用的数据更广泛)中没有很好的代表。 我们发现,在这种情况下,使用LLM注释文本是潜在的危险。我们测试了三种不同的LLM(ChatGPT和Meta的Llama2的两个版本),发现它们在注释中产生的预测误差相对于访谈对象的特征不是随机的。这可能会在以后的分析中导致误导性结论,如图5所示。基于LLM注释的统计分析可以导致与基于人类专家注释的效果非常不同的估计效果。因此,有一些高质量的专家注释是至关重要的,即使只是评估LLM是否引入了偏见。鉴于需要一些高质量的注释来评估LLM是否会引入偏差,我们认为在这些注释上训练定制模型比使用LLM更可取。 我们展示了iQal,这是我们与其他人一起开发的一种方法(Ashwi等人。,2022)通过在小的人类注释样本上训练监督模型来分析大N定性数据,不仅在样本外预测精度方面比LLM表现更好,而且引入的偏差要少得多。LLM可以通过生成更大的训练集来帮助此过程(i。Procedres.Dai等人提出的数据扩充。(2023)),但我们只在少数情况下找到边际效益的证据。这表明了一种潜在的方法,可以将解释性定性分析的细微差别和“反身”质量与大量代表性样本相协调。至关重要的是,我们认为LLM和其他NLP方法有助于和扩展传统的定性分析,而不是取代它。为了创建以细致入微的和上下文感知的方式捕获跨文档的重要和有趣的变化的编码树,没有替代品来仔细阅读这些文档的至少一个子集。 我们的申请基于对流离失所的罗兴亚人及其在孟加拉国考克斯集市的孟加拉国东道主的开放式采访。这些采访的重点是主题的愿望和抱负为他们的孩子(卡拉德,2018)以及他们实现这些目标的能力,我。Procedres.他们的航行能力(Appadrai,2004)。在Ashwi等人中对它们进行了详细分析。(2022),因此我们不会在这里讨论数据收集或相关社会科学文献的细节。这些访谈的实质内容对本文的方法论贡献并不重要,但重要的是要注意,尽管“野心”可以通过产生定量数据的结构化问题很好地捕获,但愿望和导航能力是微妙的,复杂的概念不容易定义在结构化调查中捕获。正是在处理这些概念时,开放式访谈和解释性定性分析才是有价值的。与其他研究相比,概念的复杂性和细微差别可能会在解释LLM在注释访谈中的不良表现方面发挥作用,而其他研究的注释任务则更为直接。Procedre梅隆等人。(2022年)。 以前的工作表明,LLM可能胜过众包人类注释(Gilardi等人。,2023),甚至是众包平台上相当大比例的工人可能正在使用LLM完成任务(Veselovsy等人。,2023年)。我们的结果与这些并不矛盾,因为对于许多注释任务 ,LLM确实可以执行得很好,并为研究人员节省了众包的费用和复杂性。However,orresltsdosggeststhatresearcherssholdtobeawareofthepossibilityofbiasesitrodcedbyLLMaotatio,particlarlyodatawhereaaced,cotextderstadigofthedocmetsiseeded;LLM,像其他类型的机器学习模型一样,反映了他们接受训练的数据(Kears和Roth,2020年),而定性分析增加价值的许多背景都需要理解这些训练数据中可能无法充分表示的社区和概念。 Thepaperisstructuredasfollows.ThereturnsofthisSectiondiscussthispaper’scontribution 在相关文献的背景下。然后,第2节非常简要地介绍了我们的带注释的访谈笔录数据集。第3节描述了我们使用LLM进行注释(3.1)的方法以及由Ashwi等人介绍的监督NLP方法。(2022),我们称之为IQal前进(3.2)。Sectio4thedescribesLLM-basedot-of-sampleperformaceicomparedtoiQal(4.1)adtheshowsthatLLMitrodcesmorebiasadillstratesthiscoldcaseresearcherstodrawicorrectcoclsios(4.2).第五节结束了。 2数据和定性分析 采访笔录,数据收集和定性编码过程在Ashwi等人中进行了详细解释。(2022),所以我们在这里只做一个非常简短的描述。我们抽样的人口是居住在考克斯巴扎尔营地的流离失所的罗兴亚人和当地的孟加拉国居民。除了包括人口统计和经济状况问题在内的标准家庭调查外,数据还包括2,407次开放式访谈的笔录,这些访谈涉及受试者对长子的期望 。采访是在孟加拉语或罗兴亚人进行的,然后将其转录为孟加拉语,但我们将机器翻译为英语。面试采用非结构化的问答(QA)形式,将面试官和主题配对。访谈平均长12.6个QA对,每个QA对的平均答案长13.7个字。 基于对转录本子集的仔细阅读,并遵循“灵活编码”过程(DeterigadWaters,2018年),开发了一个编码树,其中包括25个可能重叠的类别,其中19个我们在本文中重点介绍。附录A中显示了每个代码的完整描述以及示例。继Callard(2018)之后,在父母为孩子表达的“梦想”的背景和性质中,调整了抱负和抱负之间的区别。例如,儿童的具体和可衡量的梦想(e。g希望孩子成为医生,老师,企业家或特定的教育目标)被用作野心的定义,而无形的,价值导向的目标(例如g希望孩子有尊严地生活或成为一个好人)被归类为愿望。愿望分为“宗教”和“世俗”。野心分为七个主要类别-教育(进一步分为高,低,中立和宗教),世俗工作,婚姻,创业,移民,职业培训和无野心。虽然在采访中的任何时候都有野心和抱负,但“渴望的能力”或导航能力仅限于讨论父母计划或能够为孩子实现梦想的事情。导航能力被编码为七个子代码-低和高的“能力”,低和高的“预算”,低和高的“信息意识”和对上帝的依赖。 在我们的2,407份访谈笔录样本中,789份由训练有素的社会学家(Ashwin等人(2022)论文的合著者)根据这种编码结构手动注释。注释是在QA对级别定义的,允许我们在QA级别将每个注释表示为二元分类问题。 3Methods 在本节中,我们首先解释如何使用LLM来注释我们的访谈笔录。然后,我们简要描述了iQal方法,该方法在我们的专家人类注释上训练监督模型,以及我们如何结合iQal使用LLM进行数据增强。我们测试了三种不同的LLM-OpeAI的闭源ChatGPT(gpt-3.5-trbo),以及Meta的两个开源LLM,Llama-2(13b)及其微调的“聊天”变体(Tovro等人。,2023年)。基础Llama-2在公开的在线数据源上进行了预训练。然后在公开可用的指令数据集和超过100万个人类注释上对聊天变体进行微调。这种微调旨在使用诸如具有人类反馈的强化学习(RLHF)之类的技术使模型与人类偏好保持一致。ChatGPT也使用RLHFFor所有三个LLM进行微调,我们的方法。 图1:LLM指令示例 您的任务包括解释和分析与父母进行的访谈记录,仅在宗教背景下关注他们对孩子未来教育和职业的期望,而不暗示任何金钱激励。具体来说 ,您的角色是辨别父母是否明确表达了对孩子追求宗教道路的渴望。 只有父母明确表达了对孩子的愿望,包括成为宗教学者Hafiz,参加madrassa,学习阿拉伯语,古兰经阅读,伊斯兰掩护,定期祈祷,在伊斯兰银行工作或成为伊斯兰学者时,才分配“宗教愿望”标签。至关重要的是,如果孩子已经从事任何上述活动,则不要分配此标签,因为当前的宗教活动不被视为未来的愿望。如果在父母的声明中没有直接提及宗教愿望,请指定“不适用”标签,以表明未解决宗教愿望的主题。 这里有一些例子: ##输入: 采访者:你对儿子的未来有什么期望?受访者:我希望他成为一名伟大的伊斯兰学者。我希望他学习阿拉伯语并定期阅读《古兰经》。 ##输出: 解读:家长明确表示希望孩子在宗教教育中走一条道路,特别提到成为一名伊斯兰学者,学习阿拉伯语,定期阅读古兰经。因此,这次