goo.gle/LearnLM ,2024-05- 14 面向教育的生成式AI的负责任发展:评价驱动的方法 伊琳娜·尤伦卡*,‡,1,马库斯·库内施*,†,1,凯文·麦基§,1,丹尼尔·吉利克§,1,朱绍健†,1,萨拉·威尔特伯格§,1,舒布汉姆·米林德·帕尔1,凯瑟琳·赫尔曼·1,丹尼尔·卡森伯格§,1,阿维什卡·布胡普尚1,安吉特·阿南德·1,米鲁纳·皮斯拉尔·1,斯蒂芬妮·陈§,1,丽莎·王§,1,珍妮弗·1,帕尔萨·马穆迪赫·1,阿里亚·里斯贝克·1,高3,安德里亚·胡伯·1,布雷特·威尔特郡1,加尔·埃利丹‡,2岁,罗尼·拉宾·2,贾斯敏·鲁比诺维茨†,4岁,阿米特·皮塔鲁4,麦克·麦卡利斯特3,朱莉娅·威尔科夫斯基3,大卫·崔·8,罗伊·恩格尔伯格2,丽丹·哈克蒙·2,阿德瓦·莱文·2,雷切尔·格里芬·5,迈克尔·西尔斯·5,菲利普·巴尔·6,米娅·梅萨尔·3,玛娜·贾布 尔·3,阿尔斯兰·乔杜里·1,詹姆斯·科汉·3,斯里格·,斯里格1,尼尔·萨兰·1本·布朗·1,迪兰·戈鲁尔·§,1,斯 维特拉娜·格兰特·1,雷切尔·桥本·3,劳拉·魏丁格·1,胡杰鲁·1,陈恩·3,库巴·多莱基·3,坎弗·阿克布卢 特·1,麦克斯韦·比勒斯基·1,劳拉·卡尔普, Wen-xinDong3,NahemaMarchal1,KelsieVanDeman4,HemaBajajMisra3,MichaelDuah5,MoranAmbar2,AviCaciularu2,SandraLefdal1,ChrisSummerfield7,JamesAn1,Pierre-Alexandrekamenny 1,AbhinitMohdi3安妮·黑尔·5,韦恩·安德森·5,路易斯·科博·1,尼夫·埃夫隆†,2岁,穆克塔·阿南达·3,沙基 尔·穆罕默德·1,莫琳·海曼斯·3,祖宾·加赫拉马尼·1,约西·马蒂亚斯·2,本·戈梅斯·3和莱拉·易卜拉欣·1 *同等贡献,†技术主管,‡研究主管,§工作流主管,1GoogleDeepMind,2GoogleResearch,3Google,4Google 创意实验室,5亚利桑那州立大学,6隆德大学,牛津7大学,8人类学,在GoogleDeepMind工作期间进行的工作 世界面临的一个主要挑战是提供公平和普及的优质教育。生成人工智能(genAI)的最新进展使人们对新技术的潜力感到兴奋,新技术可以为每个学习者提供个人导师,为每个老师提供助教。然而,这个梦想的全部范围尚未实现。我们认为,这主要是由于将教学直觉用语言表达到genAI提示中存在困难,并且缺乏良好的评估实践,而定义优秀教学法的挑战加剧了这一点。在这里,我们展示了我们与学习者和教育工作者合作的工作,将学习科学中的高级原则转化为实用的七种不同的教育基准,涵盖定量,定性,自动和人工评估;并开发一套新的微调数据集,以提高双子座的教学能力,LearnLM-导师介绍。我们的评估表明,在许多教学方面,教育工作者和学习者始终优先选择learnlm-tutor而不是及时调整的双子座。我们希望这项工作可以作为开发全面的教育评估框架的第一步,并且这可以使AI和EdTech社区迅速取得进展,以最大程度地发挥AI在教育中的积极影响。 1.导言 人工智能(AI)大约70年的历史是范式转变之一:从符号系统到贝叶斯方法,再到深度学习,在过去的几年里,生成AI(genAI)-大型基础模型在互联网上可用的大量媒体上进行训练,以获得一系列令人印象深刻的通用功能,从而(大多数时候)能够对任何用户提示或询问提供有用的响应。每一次范式转变都带来了一系列独特的希望、机遇和挑战。然而,当前的人工智能时代是前所未有的:人工智能比以往任何时候都更容易获得(因为它只需要通过自然语言进行提示),比以往任何时候都更有能力,而且似乎比以往任何时候都更快地改进。关于如何利用这项技术实现最大社会效益的问题自然会出现。 通讯作者:learnlm-tech-report@google.com ©2024GoogleDeepMind。保留所有权利 人类评价 自动评估 参与 型号 改进 部署 LearnLM-导师的发展 这个错误是什么意思MatchingChar.java:14:错误:int不能被取消引用 评价:教师偏好学习者 LearnLM-导师 它看起来像你试图使用如果比较字符串中的两个字符声明。但是,您使用|错误的charAt()方法。的 |使用charAt()方法访问字符串中某个特定索引处的字符。它返回一个字符,而不是一个整数。 因此,表达式(idx1.charAt((idx2))无效|idx1是整数,而不是字符串。要fix此,您可以将表达式更改为 .(userText.charAt((idx1)).这将允许您比较userText字符串中指定索引处的字符。这有意义吗? if((idx1.charAt(idx2))&&(userText.charAt(idx2)[System.out.println("匹配发现"); ] else[ 系统。出。println("未找到匹配项"); ] 学习者 经过一些试验和错误后,我终于得到了下面的代码来处理你的小费。这 对我的udner站有很大的不同- LearnLM-导师 太棒了!你能用你自己的话来解释charAt()的方法是什么? if((userText.charAt(idx1))==(userText.charAt(idx2)[System.out.println("找到匹配"); ] else[ 系统。出。println("未找到匹配项"); ] 学习者 characterat方法正在查找specific位置中的字符但它不能这样做的整数,只为字符串 学习者 部署:ASU自习室 你能在这里复制你的代码吗?这将帮助我调试问题。 LearnLM-导师 “ 参与:学习者反馈 我会把它描述为一个有用的朋友,他对一个可以帮助你学习这门课的主题了解很多。 LearnLM-Tutor的自习室用户 学习者 当然!把你的时间,让我知道如果你有任何更多的问题。 LearnLM-导师 完全正确!方法charAt()将索引作为参数,并返回字符串中该索引处的字符。你想尝试另一个问题吗? 我实际上需要休息一下,但我可能很快会回来尝试另一个! LearnLM-导师 图1发展L|earnLM-导师:我们负责任地发展genAI教育的方法概述。粗体箭头表示开发流程,虚线箭头表示信息流。我们的方法以参与开始和结束。我们首先回答以下问题:“我们试图帮助谁?”,“他们关心什么?”,“谁是所有相关的利益相关者?”,并将他们纳入我们的开发过程。这为我们的模型改进工作的优先级以及我们全面评估基准的开发提供了信息。这些进一步通过快速的基于自动评估和较慢的基于人工评估的迭代循环来通知模型改进(以及彼此)。最后,我们将模型部署到真实用户中,以进一步告知我们的研发工作,并反馈到参与阶段。我们使用这种方法来开发对话AI导师learnlm-tutor。评价(教师偏好):本报告介绍的七个评价基准之一。它表明,教育者更喜欢learnlm-tutor,而不是提示[1]将Gemini1.0作为大多数测量的教学属性的基础。部署(ASU自习室):learnlm-tutor与参加编程入门课程的ASU自习室学生之间的示例对话。参与(学习者反馈)来自ASU自习室学生的采访报价,该学生在课程中使用了learnlm-tutor。我们使用访谈来获得有关导师的有效性和安全性的定性反馈。 世界面临的主要挑战之一是缺乏普遍和公平的优质教育[2]。教育是一个关键的经济驱动力[3] 和向上社会的促进者 流动性[4];然而,即使在COVID-19大流行之前,低收入至中等收入国家的所有10岁儿童中有53%正在经历学习贫困[5],美国40%名学区负责人将他们的教师短缺描述为“严重”或“非常严重”[6]。这一流行病进一步加剧了教育程度和教师保留方面的长期问题,对那些来自弱势背景的人产生了不成比例的影响[5,6]。 大流行后AI一代的崛起引起了不同的反应。一方面,它似乎有望实现知识和教育的民主化:学生是该技术的早期采用者和顶级用户[7],而genAI正在主导EdTech领域[8]。另一方面,人们对这种技术在教育环境中的滥用提出了一些担忧[7,9]。例如,为大多数最新EdTech系统提供动力的genAI模型并未针对教学法进行明确优化。相反,模型被训练成“有帮助的”[10-14],但这种有用的具体定义可能经常与教育学和学习不一致。例如,学生可以很容易地得到作业的直接答案,而不是通过他们自己的工作,以获得预期的实践。通过提示一代人工智能模型获得答案,似乎是“专家”信息的可用性也给学生一种在实现之前就掌握的错觉,这可能最终导致工作场所的问题[9,15]。 本报告描述了我们为教育用例优化genAI的第一步。特别是,我们专注于1:1的对话辅导,并为此用例提出了一个全面的评估协议。我们专注于对话式辅导,因为我们认为它是最具影响力和最通用的用例之一,并且因为它需要将许多重要的教育功能集成到单个系统中。一位优秀的对话式人工智能导师有可能增强学习者(通过为他们提供即时反馈并适应他们的个人需求)和老师(通过增加他们的影响力并减轻他们的工作量)的教育体验。我们专注于评估,因为很明显,学习科学(见3.1节)、教育技术(见3.2节)和教育人工智能(见4.2节)之间(甚至内部)缺乏共享框架,这样的框架可能比任何单一产品都能取得更大的进步。此外,有效的教学成功措施是优化人工智能解决方案的先决条件,而人工智能解决方案需要这样的信号来“爬山”。我们的主要贡献如下: 1.我们描述了我们负责任地发展人工智能教育的方法(图1),这是由道德和政策文献[16-26]提供的。我们强调参与式(2节)和多学科的研究方法,汇集了教育学,认知科学,人工智能,工程,伦理和政策方面的专家,以及最终的利益相关者-学生和教师-将学习科学的见解转化为Gemini1.0的务实和有用的教学改进[10]。 2.我们介绍了learnlm-tutor,这是一种基于Gemini1.0的新的基于文本的AI导师,针对1:1的会话辅导进行了进一步的微调(3节),并表明我们在及时调整的Gemini1.0上改进了其与教育相关的功能。 3.我们开发了一套全面的七个教学基准(定量和定性,并使用人类和自动评估;图2),旨在从各个角度评估对话式AI导师的表现。作为案例研究,我们将这些评估应用于及时调整的[1]Gemini1.0和learnlm-tutor,为教学进步提供了一系列证据。我们还讨论了更有针对性的评估的例子,并描述了我们如何使用它们来发展LearnLM-导师的特定教育能力,如评估实践(第8.1节)和对程序性家庭作业问题的反馈(第8.2节)。我们的综合方法超越了解决更常见的问题“它有效吗?”(定量研究),还包括“它如何以及为什么有效?”(定性研究)和“它会为每个人工作吗?”(参与性研究),符合 参与者 研究人员 角色扮演参与真正的学习者 者 单圈或多圈 单匝 多匝 无指导或场景指导 无导向 引导 学习者fi效率 新手 专家 数据评 级 评价类型 自动 人类 语言模型 评价 评分者视角 (6.1) 学习者 教育者 评价范围 教育学分数 (6.2) 对话级别 单匝 比较评价 ASU 访谈 (7) 并排 一次一个 并排教学法转级教学法(5.2) (5.4)会话级教学法学习者主观反馈 (5.3)(5.1) 图2第4.3|.2节中介绍的评价分类概述,该分类是本报告中介绍的七个教学评价基准的基础。每个基准在分类法中的位置都是独一无二的,并且具有自己的好处和挑战。这些不同的基准共同提供了对AI导师教学能力的更全面的看法。括号中的数字表示描述每个特定基准的部分编号。 福斯特等人。[21]。 4.最后,我们讨论了我们工作的局限性以及安全性,道德和政策含义。我们的道德和安全方法超越