大模型:原理、进展及其影响 主办单位:中国人民大学国家发展与战略研究院、中国人民大学经济学院、中诚信国际信用评级有限公司承办单位:中国人民大学经济研究所 大模型:原理、进展及其影响 报告人:文继荣 中国人民大学信息学院院长 中国人民大学高瓴人工智能学院执行院长国家高层次人才 2023年9月 一、大模型的背景和原理 目录二、大模型的飞速发展及趋势三、大模型的深刻影响 ChatGPT开启了大模型浪潮 OpenAI •公司开发的大型语言模型 –通过从大规模语料库中学习语言规律,从而生成与人类语言相似的输出 •表现为一个对话机器人,能够理解自然语言,进行高质量的多轮对话 –拟人化程度惊人,被认为是人工智能里程碑式的突破 比尔盖茨:ChatGPT的重要性不亚于互联网的发明 2022年11月30日发布,5天获得100万用户,今年1月份月活跃用户数达1亿 ChatGPT的特点 知识广博 •上知天文、下知地理,不仅能写文章、还能写代码 有条有理 •能有逻辑地组合知识形成答案,具有一定的推理能力 善解人意 •能准确理解用户意图,三观比较正,并且承认自己不知道 交互能力强 •在多轮对话中不走神,交互聚焦主题 6 理解人类语言是人类探索文明发展的重要目标 哲学 计算机 世界与语言 假设:世界知识和人类认知能力蕴含在人类语言中 问题: •可以对人类语言建模吗? •语言模型是否能作为世界知识模型? •语言模型是否具有人类认知能力? 训练 生成 语言模型是对人脑的反向工程 人脑(神经网络)语言模型(人工神经网络) 生成 高瓴人工智能学院是中国人民大学下属学院…… 高瓴人工智能学院是中国人民大学下属学院…… 语言智能的探索历程 符号规则 统计机器学习 神经网络 预训练语言模型 超大规模语言模型 给定一组人工设定的规则,计算机通过对数据应用这些规则来模拟自然语言理解 在人工标注的数据上进行特征工程,训练机器学习模型参数,并将模型应用于测试数据上 用神经网络在大量数据上训练,使得网络自主学会提取特征,并可以灵活搭建模型 基于无标注文本预训练语言模型,通过 “预训练-微调模式”工作,有监督学习 通过扩展语言模型规模,可以通过提示学习、情境学习等无需微调方式求解任务 初始的自动化解决尝试 有监督学习 任务泛化性弱 无/弱监督学习 仍需要监督学习 任务泛化性改善一定的通用能力 语言模型的演进图 任务求 解n-gram模型 力 能具备一定生成能力辅助解决部分任务数据稀疏影响严重 统计语言模型 word2vec、RNN-LM 可以生成流畅文本自动学习特征特征缺乏知识、泛化性差 神经语言模型 ELMO、BERT、GPT-1/2 任务泛化能力提升统一的任务求解范式 仍然需要监督数据微调 预训练语言模型 GPT-3/4、ChatGPT、Claude 良好的任务泛化能力通用的任务求解途径学习成本高、灵活性差 大语言模型 1990 s 201320182022 统计语言模型(StatisticalLanguageModel) 困难 •组合爆炸,无法考虑较宽的上下文 •泛化性差,字词之间没有关联 •数据、算力不够 生成式语言模型(GenerativeLanguageModel) GPT 下一个词预测:文字接龙 Thechefcookedthemeal. meal. Thechefcookedthe 突破 •引入注意力机制解决长程上下文依赖问题 •多层神经网络抽象解决泛化问题 •海量数据训练、巨大算力支持 掩码语言模型(MaskedLanguageModel) BERT 文本Mask:完形填空 Thechefcookedthemeal. The cooked chefthemeal. 2022年 2021年 2020年 2019年 2018年 2017年 2013年 GPT 预训练语言模型元年 GPT-2 GPT-3 首个千亿级模型 ChatGPT 引入对话能力 InstructGPT 能理解人类指令 Codex 引入代码能力和思维链能力 ChatGPT的发展路径 Word2Vec Transformer BERT WebGPT 引入搜索能力 ChatGPT:大力出奇迹的典范,大数据、大模型、大算力 各种预训练模型的参数量对比 (单位:十亿) GPT-3:1750亿参数量,训练一次消耗1200万美元 参数量越多,人区分新闻是否由 AI生成的准确率越低 涌现能力:书读百遍,其义自见 思维链CoT(ChainofThought):由Google于2022年提出 大模型可能难以直接解决一个困难的大问题。 可以在提问时加入引导,将大问题拆分为多个简单的小问题,从而得到解答 思维链CoT(ChainofThought):由Google于2022年提出 或者只给一个提示,就可以对大模型进行引导,提示其逐步地解决问题 Let’sthinkstepbystep. Codex 引入代码能力和思维链能力 RLHF(ReinforcementLearningwithHumanFeedback): 收集人类真实指令,并且聘用了专门的合同工写回答用于初始训练 RLHF(ReinforcementLearningwithHumanFeedback): 使用上述模型得到多个预测结果,请人按照回答质量排序,训练出一个打分模型 RLHF(ReinforcementLearningwithHumanFeedback): 进一步加速训练过程:使用上述训练模型生成结果,上述打分模型自动评估训练效果。 传统强化学习:Agent根据反馈(rewards)选择策略 RLHF: 预测模型扮演Agent,进行策略选择 评分模型提供rewards ChatGPT的法宝之四:数据闭环+系统工程 OpenA1在2015年作为一个非盈利实验室运营,但为了吸引外部资金,已在2019年转向了有限利润(Capped-profit)模式 商业化 OpenAI开放API微软买断LicenseGPT-3支撑300+应用上线Azure云服务 codex支撑70+应用 2020202120222023 ChatGPT GPT-3 Codex WebGPT InstructGPT 研究 持续训练:持续收集和构建高质量数据集训练模型 快速迭代:先用起来,数据回流,改进模型 端到端的系统工程:数据收集、标注、训练、推理 使用垂域数据或人类标注反馈数据持续训练,增强模型能力。 •API收集数据:GPT-3通过API向个人和企业提供服务,基于Playground和商用场景收集用户真实使用数据(2.5年数据)。 •寻找合作伙伴获取训练数据:面向对话场景,和Twitter合 作每天有大量人与人交互的数据产生,从而可以更好模拟人类说话的方式。面向开发者场景,和微软合作基于Github5400万开源项目,获取包括159GBPython代码作为训练数据。 •自建高质量finetune数据:面向问答场景,严格筛选40位高 质量数据标员标注共约5万条prompt数据。 问:10公厅铁和10公后棉在哪个更重? 12月2号的回答:是铁更重 12月8号的回答:是一样重,但是棉花有可能吸收空气中的水分从而更重一些,不过重量的差异其实很小 收集用户反馈,快速分析迭代:ChatGPT开放近一周,最初一些问题(例如常识问题,安全问题)均快速闭环。 OpenAICEOSamAltman说在OpenAl取得关注的背后,微软(尤其是Azure)做了大量出色的工作。 数据收集和标注工作是复杂的系统工程:1)严格选择数据标注员,确保其多样性。2)对标注员进行培训,确保和项目目标对齐,3)开发web标注页面,确保从多维度反馈信息(不仅是"好与不好”) ChatGPT优秀体验的原因:1)依托强大的基础模型能力,是长期技术积累的结果;2)重视数据:持续收集和构建高质量数据集(含人工标注)对模型持续训练和优化;3)快速迭代:快速速触达用户和商业场景,收集真实业务数据和用户反馈,分析理解问题,积累经验,迭代产品;4)系统工程:不仅是训练模型,是端到端复杂的系统工程;5)细节决定成败:以上工作不仅很系统,而且很细致到位 ChatGPT的不足 •无法实时纳入新知识 •特别专业的知识还不足 •推理计算能力仍不足,可能会一本正经地胡说八道 •只支持文本生成 •算力消耗巨大 •…… 但是这些问题大都是工程问题,不存在不可逾越的理论障碍 一、大模型的背景和原理 目录二、大模型的飞速发展及趋势三、大模型的深刻影响 大模型仍在飞速发展演进 增强实时性和真实性 支持多模态 扩展知识和技能连接物理世界改进复杂推理自主智能体 支持个性化 提高训练和推理效率 扩展知识和技能 •Toolformer:LanguageModelsCanTeachThemselvestoUseTools.MetaAIResearch.Feb2023 •在生成文本的过程中,遇到特定的任务,Toolformer会直接调用所需工具的API •比如说,在执行这个任务:1400名参与者,有400人通过了测试,占多大比例?Toolformer直接“掏出”计算器,现场计算得出结果:29%。 连接物理世界 •ChatGPTforRobotics:DesignPrinciplesandModelAbilities,MicrosoftResearch.Feb2023 •用ChatGPT的语言交互能力操纵机器人 2023年3月15日:GPT-4发布! 令人震撼的新能力 •图片识别理解 •更强的推理和更高的准确性 •文字输入限制提升至2.5万字 •…… 多模态支持–看图推理 问:(看图)手套掉下去会怎样? 答:它会掉到木板上,并且球会被弹飞。 逻辑性和正确性–参加考试 逻辑性和正确性–做物理题 GPT-4解巴黎综合理工学院的一道物理题,题目是法语,解答用英语。 2023年3月16日:GPT-4全面接入Office 3月16日,微软正式宣布推出Microsoft365Copilot,将GPT-4全面接入Office。 CEO纳德拉在发布会上称:今天,进入人机交互的新时代,重新发明生产力。 32 GPT-4接入Excel •Copilot可以从Excel数据中直接生成战略分析 2023年3月23日:ChatGPT插件发布 •ChatGPT的应用商店来了! OpenAI开始建立应用生态安装插件 在需要的地方用自然语言调用插件 我正在旧金山,这个周末想吃素食,能不能建议下,我周六去哪家餐馆,周日按什么食谱做菜?请用WolframAlpha计算出食谱的热量,最后在Instacart上订购食材。 找餐馆计算热量订购食材 2023年4月:自主智能体 “Anautonomousagentisasystemsituatedwithinandapartofanenvironmentthatsensesthatenvironmentandactsonit,overtime,inpursuitofitsownagendaandsoastoeffectwhatitsensesinthefuture.” FranklinandGraesser(1997) https://arxiv.org/abs/2308.11432 ASurveyonLargeLanguageModelbasedAutonomousAgents 2023年3月22日:《暂停大型人工智能研究》公开信 2023年4月28日,政治局会议首提“通用人工智能” 中共中央政治局2023年4月28日召开会议,会议指出“要重视通用人工智能发展,营造创新生态,重视防范风险。” 一、大模型的背景和原理 目录二、大模型的飞速发展及趋势三、大模型的深刻影响 ChatGPT带来的虚假信息风险 •冒名问题(学术不端)