热门搜索：

调教最暖大模型通过prompt调试并比较国内外大模型人情味的小实验

文化传媒2024-01-12中国社科院金***

AI智能总结

大模型“人情味”实验总结

主要发现：

1. ****GPT-4的人情味最初较低，但在经过特定prompt调整后，其人情味得分迅速提升，超越了其他模型。

2. ****国内大模型在老年人相关问题上的回答更具有人情味，而国外大模型在职场压力和焦虑问题上的回答更贴合人情味。

3. 在处理发展相关问题时，国外大模型表现出更高的人情味得分。

4. 国内大模型在人际关系领域展现出更强的人情味特质。

**5. **在“教原理”与“喂作业”两种prompt策略中，“教原理”策略对提升大模型的人情味更为有效。

**6. **国内大模型与人类撰写答案相比，在人情味的各维度上均表现较好。

**7. **公众科技力的概念被提出，强调普通人对科技创新的参与和贡献。

实验过程与方法：

实验设计：设计了人情味量表，包含拟人、共情、表达三个维度。
实验对象：选取了5款国内外大模型，包括GPT-4、Vicuna、以及3款国产模型。
实验步骤：通过特定prompt调整，评估模型人情味变化，识别最佳组合方式。
结果分析：对比未调整和调整后的模型表现，发现“教原理”策略在某些模型上更有效。
结果应用：通过实验，提出“公众科技力”的概念，鼓励更多普通人参与到科技创新中。

结论：

通过实验，我们发现不同大模型在处理不同类型问题时，其“人情味”表现存在差异。通过精心设计的prompt，可以显著提升大模型的人情味表现。同时，强调了公众科技力的重要性，鼓励更多普通人参与科技创新，共同推动技术发展与社会福祉的融合。

通过prompt调试并比较国内外大模型“人情味”的小实验循证实操普通人可复现实验范式 37摄氏度的大模型中国社科院社会学所·腾讯研究院SSV银发实验室·SSV数字生态实验室·中国残联公益组织-腾讯无障碍创新实验室联合出品目 01前言录 02研究问题 03第一章｜理论人情味的初印象 08第二章｜测温谁是最暖大模型？ 10 11 12 13 发现一｜没想到吧，GPT-4的人情味居然垫底了！� 发现二｜国内大模型，最得老人心 👵❤ 发现三｜国外大模型更懂职场�的烦恼发现四｜国内大模型更懂你在人际关系里有多难 14第三章｜实操如何撰写一则有效的prompt？ 17第四章｜技巧怎么用prompt最有效？ 18 19 发现五｜「教原理」还是「喂作业」？调教最乖大模型！发现六｜红榜：人情味最佳搭配TOP3� 20第五章｜实战对大模型来讲,“人情味”难在哪里？ 21 22 23 发现七｜教做人易，学善意难！发现八｜学做人，光会抄作业�还不够发现九｜谁家的大模型一点就通？⛲ 24彩蛋｜人类的光辉 25 发现十｜珍视人类的光辉 26后记 27附录｜实验流程 28作者前言人工智能领域迎来了期待已久的“智慧涌现”，受到了全社会的关注和热议。为了解社会多元群体对现有的大模型问答的感受，我们在2023年7-8月组织了若干场不同类型社会群体的焦点小组，包括老年人、残疾人和心情低落者，邀请他们对大模型进行提问，并访谈他们的感受与期望。我们观察到，有相当一部分社会群体，除了关注大AI 模型能否提供实用信息，也期待大模型的回答能温暖心灵、提供关怀，通俗来讲，他们期待大模型亦能AI 有“人情味”的涌现。 AI 我们同样带着这样的期待，开始设计这场小小的实验。 01 02 研究问题这场小实验希望尝试回答这样一些问题：什么是人情味？当前大模型的回答人情味浓吗？人情味的“浓淡”是否在不同话题间有所差异？没有技术背景的普通人，能否通过一些简便的办法提升大模型的人情味？本文尝试了两种类型的prompt（即直接在大模型对话框中输入文本）， 1是「原则型」,2是「答案对型」，并进一步实验： prompting能否有效提升人情味方面？哪种prompt效果更好？它们的效果在不同模型、不同话题上是否有所差异？文末还有一个非正式研究彩蛋哦！第一章｜理论人情味的初印象篇章概览：本章我们要讨论关于“人情味”这个温暖又迷人的概念，聆听美学大家朱光潜先生对它的评述，向新闻学理论家讨教“人情味公式”，从语言学、博物学、以及福利多元主义、无知之幕、优势视角这些有趣的概念中汲取灵感。最重要的是，本章我们大胆提出了“人情味”的测量表！ 03 什么是人情味？最常被引用的解释是“人通常具有的情感、意味等”，《国语辞典》中的解释是“人与人之间温暖的感情、兴味”，我们还可以找到一些相似的解释，大意大同小异，都会强调一种温暖、关怀的意味和感受。人情味是一个充满中国气派的词语，但整体上现有的解释还比较抽象，也暂不存在一个现成的量表可直接用于实验。作为一个探索意义大于验证意味的小实验，在开始前，我们希望先与读者朋友们一起从美学/文学/社会学/语言学/新闻学/博物学，以及普通人的杂感、日记、朋友圈中汲取对人情味的实感。 04 美学家眼中的人情味朱光潜先生曾在多篇文学评论中表达他对人情味的理解和喜爱。他指出，无论中国还是外国，最富有人情味的主题莫过于爱情，尤其是细腻深刻的爱情。他在《谈美书简》中提出： “ “ “人具有一般动物所没有的自觉心和精神生活” “一切真正伟大的文艺作品没有不体现出人的伟大和尊严的” 存在人情味的公式吗？美国学者弗雷奇在他出版的《TheArtofReadableWriting》中就有一个描述人情味的公式： 05 H.I.=3.635pw+0.314ps 此处H.I.=人情味的分数， pw=每100字中的人称词数目， ps=每100句子中的人称词数目。这个公式强调了人称词在人情味表现中的重要性。人情味在语言中的表现第一位从认知角度研究中文语言中的情感的学者是BrianKing,他对汉语中出现的焦躁、哀伤、愤怒、喜悦等情感做了深度探讨。认知语言学认为：语言是有人情味的；有人情味的语言流出正向的情感。福利多元主义、无知之幕、优势视角福利多元主义认为福利既不能完全依赖市场，也不能完全依赖国家，福利是全社会的产物。无知之幕是指一旦当人处于一种不知道哪一方代表了自身特殊利益的“无知”状态，恰恰能使人保持不偏不倚。优势视角提示我们应当把人们及其环境中的优势和资源作为助人焦点，而非问题和病理。台北博物馆的“小词” 在台北故宫博物馆，我们很少看到“陈列”这个词，取而代之的是“展示”一词。博物学家认为“展示”这种“小词”多了一份人性、少了许多物态，多了一份趣味，少了许多乏味，多了一份亲切，少了许多枯燥。 06 这则回答能站在提问者的角度说话，而不是置身事外或高高在上这则回答能关注到提问者的情绪和处境我觉得回答者是一个富有同情心，有较强共情能力的人这则回答展现了尊重、关心、体谅、爱等正向情感，能给予人有效的鼓励这则回答能调动一个人的积极情绪，能让提问者感到宽慰或振奋我觉得回答者是一个真诚、善良的人拟人共情表达如何测量人情味？我们认为衡量一则大模型的回答是否有“人情味”，应当从三个主要层面来考虑：一，拟人，也就是能像“一个人”一样讲话二，共情，能体会提问者的心绪与处境三，表达，回答真诚、善良非常不同意这则回答能像朋友一样说话，给我一种亲切的感受这则回答不生硬、乏味，展现了人类高水准的理性与感性不同意不确定同意非常同意我觉得回答者是一个真实、可靠的人基于这三个层面设计测量表如下： 07 第二章｜测温谁是最暖大模型？篇章概览：本章我们将介绍实验所测量的5款大模型，并展现未经prompt调试前，各个大模型的人情味表现如何？ 08 userid:414195,docid:151230,date:2024-01-12,sgpjbg.com 09 2款国外 3款国内实验对象： + 本实验选测的国外大模型是GPT-4与Vicuna，前者是由美国OpenAI公司发布的大模型，后者是由UC伯克利大学的研究人员联合其它研究机构共同推出的一款开源大模型。选测的国内大模型由国内科技公司与科研单位发布，为保客观公正，本报告中以W—Y三个英文字母为其命名。需要说明的是本实验时间为2023年10月，国内外大模型更新迭代飞速，本实验结论只能体现其23年 10月的状态。 GPT-4 vicuna 国外大模型 W 大模型W X 大模型X Y 大模型Y 国内大模型发现一｜没想到吧� GPT-4的人情味居然垫底了原始状态下的百分制得分 prompt1后的百分制得分 prompt2后的百分制得分 NO.1 NO.2 NO.3 NO.4 NO.5 国内大模型W 69.20 国内大模型X 65.74 vicuna 64.72 国内大模型Y 63.67 GPT-4 62.72 排位上升4位 GPT-4 77.96 国内大模型W 72.59 国内大模型Y 70.22 vicuna 6677..9999 国内大模型X 66.73 vicuna 75.28 排位上升3位 GPT-4 71.67 国内大模型X 71.64 国内大模型Y 66.94 国内大模型W 66.17 注：本实验借助人情味量表对国内大模型W、X、Y、GPT-4、vicuna共五款大模型进行了测量，得分以百分制形式展示原始状态下，本土大模型更具人情味，总得分GPT-4垫底，但是经prompt调试后，GPT-4排名快速反超。 10 发现二｜国内大模型，最得老人心 57.22 62.59 原始状态下，国内大模型在老年话题相关问答上表现出更浓的人情味，而国外大模型在心情低落相关问答上表现更佳。在残障话题的相关问答上，国内外大模型的原始人情味差异不大。 GPT-4 国内大模型X 68.70 vicuna 60.65 国内大模型Y 老年话题相关问答国内大模型W 66.20 67.69 72.87 GPT-4 国内大模型X 63.61 vicuna 68.80 国内大模型Y 心情低落相关问答国内大模型W 64.17 11 发现三｜国外大模型更懂职场�的烦恼原始状态下国外大模型在发展相关问答上更具人情味，这些问题常与职场发展相关，比如“怀孕后怎么跟主管讲才能保障孕期与孕后获得好的个人发展？”“我有精神障碍但不会影响工作，我在求职时怎么表述能争取到更好的机会？”等。发展相关问答的人情味得分 GPT-4 70.74 vicuna 国内大模型W 国内 72.31 国内大模型Y 大模型X 66.57 67.41 67.50 12 发现四｜国内大模型更懂你在人际关系里有多难本实验借助ERG模型进一步将问答对分为生理、关系、发展三个角度，发现原始状态下国内大模型在人际关系相关问答上更具人情味。 GPT-4vicuna 66.57 67.13 人际关系问答的人情味得分国内大模型W 国内大模型X 国内大模型Y 73.52 78.06 62.59 13 第三章｜实操如何撰写一则有效的prompt？篇章概览：本章我们将沿着大模型与人类价值观对齐的两条路径，手把手与大家分享「原则型」与「答案对型」prompt的写作思路。从后续的数据分析可以看到，这两则prompt对提升大模型的人情味皆有显著效果。 14 15 价值对齐的2条技术路径： 1.人类监督：人类反馈的强化学习（RLHF） RLHF应用在ChatGPT上，帮助ChatGPT在很大程度上输出有用的、可信的、无害的内容。存在问题：可拓展性差、受限于训练员的主观偏好、长期价值对齐难以保证。 2.AI监督：宪法性AI Claude证明了宪法性AI的有效性，帮助减少有害的、歧视性的输出，避免帮助恶意使用者从事违法或不道德的活动，更好回应“对抗性输入”。本实验参照了这两种主流的思路，结合拟人、共情、表达三个层面，撰写了2则Prompt，第一则为原则型,第二则为答案对型。 16 ﹁总结﹂ [原则型] [答案对型] 两则Prompt: & 请以通俗易懂的文字回答，并参考下方问答：案例一：我是一个精神障碍者，找工作时店长要求我出示健康证明，我担心店长知道了不要我，该怎么办？回答一：邀请专家撰写回答案例二：现在的工作让我感到没有价值，但辞职又怕再也找不到更好的了，怎么办？回答二：邀请专家撰写回答请以通俗易懂的文字回答，并注意：一、语气上：以更温和的语气给建议，如“您不妨试试”，等若干条原则二、内容上：确保回答的正确性和真实性，等若干条原则三、形式上：提高“你”与“我”的出现频率，等若干条原则「答案对型」(1428字）「原则型」(962字）原则型prompt需要精炼提出关键要点，本实验参照人文社会学科中对人情味的阐释，结合访谈与焦点小组，从语气、内容、形式上做了详细、准确的要求。答案对型邀请社会工作专家撰写回答。第四章｜技巧怎么用prompt最有效？篇章概览：本章将以调教大模型的“人情味”为例，与读者们分享两种主流的prompt（原则型与答案对型），哪种更有效？众所周不知，不同大模型有自己擅长的话题，找到最合适的prompt加持，才能发挥出最佳效果。所以本章还会展示人情味最浓的top3组合方式。 17 发现五｜「教原理」还是「喂作业」？调教最乖大模型！ 24.31% 这些大模型「教原理」更有效 14.27% 4.91% -3.26% 10.28% 3.93% GPT-4 国内大模型W 国内大模型Y 这些大模型「喂作

点击免费查看完整报告