您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未尽研究]:通用AI通用技术通向何方 - 发现报告
当前位置:首页/行业研究/报告详情/

通用AI通用技术通向何方

通用AI通用技术通向何方

通用AI,通用技术,通向何方 未尽研究2023.05.07 摘要 ChatGPT自从2022年底发布以来,迅速成为风靡全球的现象级产品,开启了通用人工智能的时代。这个应用背后的技术,是用深度神经网络技术训练出来的自然语言大模型,它可以生成内容,也具备了逻辑和推理能力,与其他模型和应用协同完成任务。大模型还能打通语言、图像、视频、音频,以及更多对物理环境的感知,产生“具身”的智能。大模型也可能进一步改变科学研究的范式。尽管大模型目前也存在着事实不准确、幻觉等缺陷,并且进一步引发了关于智能的本质的争议,但大模型通过学习人类语言并且掌握其基本结构,从中产生了智能,并且对人类的智能提供了一种参照。大模型在互联网和数字技术的基础之上,成为一种通用技术,正在迅速渗透到数字经济的各个领域,在计算机上形成了自动化完成复杂任务的能力,在知识工作的领域能显著提升劳动生产力,并且引领数字经济向人工智能化发展。根据以往的电力和信息等通用技术颠覆旧技术的研究,大模型的迅速应用,可能在短期内冲击就业市场,但随着新技术带来更多行业的生产力的提升,并且创造新的需求,新技术可能创造新的就业和增长。但这一切还取决于采取相应的政策。对于中国来说,发展大模型面临着一些瓶颈,如算力落差、开源的语言数据不够丰富、先进大模型人才短缺,等等。但中国可以通过多元分布式的布局,统筹超算中心克服短期算力瓶颈,通过开源及要素市场建立起语料数据的供应。由于中国在特定领域、行业应用方面拥有丰富的应用场景,大模型技术在中国有广阔前景,服务于中国的数字经济与创新型经济的大计。 目录 摘要1 1通用AI3 1.1CHATGPT时刻3 1.2大模型的缺陷4 1.3大模型的下一步5 1.4AIFORSCIENCE7 2通用技术8 2.1电力与IT8 2.2人工智能作为通用技术9 2.2.1市场渗透10 2.2.2成本下降10 2.2.3催生创新11 2.3人工智能的经济分析12 2.3.1鲍莫尔病与索洛悖论12 2.3.2白领危机与就业逆差13 2.3.3新的数据要素15 3中国之路16 3.1脱钩时代16 3.1.1算力落差16 3.1.2语言数据,非对称的汉语与英语18 3.2中国大模型,大力出奇迹19 3.2.1算力多元化和集约化19 3.2.2大模型与大科学19 3.2.3汉语+19 3.2.4不输在应用20 结论与讨论21 引用及参考文献22 人是万物之灵。人类之灵,在于语言。人类所有的知识通过语言传播,所有的智慧通过语言传承。维特根斯坦说,思想的边界,止于语言的边界。 是不是说,当机器学习了所有的语言,就能达到人类的智能,这是一个假设,一个需要有勇气去证明的假设。 1通用AI 用人类所有的语言作为用来学习的数据,去复制人类的智能,去发现一种新的智能,这是一项伟大的实验。费曼说过:凡是我不能创造的,我就无法理解。 1.1ChatGPT时刻 世界上第一个能像人一样对话的机器人,不可能只是在语言实验室里,而只能是出世不久即在真实的世界里与上亿人对话的ChatGPT。它的字面意思,就是预训练生成式对话机器人。这个机器人的大脑,就是自然语言大模型。这份报告里自始至终会用自然语言大模型(简称大模型)这个概念。 这个由深度神经网络训练出来的GPT-3.5大模型,拥有1750亿个参数,45万亿个语言标志(token)。神经网络可以从已知的单词正在组成的句子中,预测下一个单词——这也是辛顿 (GeoffreyHinton)等人于1986年5月在《自然》杂志上发表的论文中,首次提出的语言模型。 自然语言展示出智能,就是排序的游戏。我们置身于一个复杂的世界。无论多么复杂,宇宙万物,从人类语言到蛋白质的结构,皆成序列。序列决定结构。结构决定功能。世界上所有的语种,皆是由遵从一定的语义和语法规则而组成的语言文字序列。 根据人类的提示,借助从人类语言中知识的学习,计算机通过概率统计,总是能通过推算出下一个单词,以符合语法、语义、上下文信息等,最终生成对人类有意义的词组、句子、段落、表达,并且与人类流畅地对话。 图1:生成式人工智能输出对话的原理示例。Scaling,emergence,andreasoninginlargelanguagemodels,JasonWei 机器学习让计算机从经验中学习知识,而不是以人类给计算机规定的形式以获取所需要的所有知识。计算机用较简单的概念,一层一层地学习复杂概念,构建出多层次的深度神经网络。 图2:人工智能的表现改善迅速。人工智能测试与人类水平相比。Kielaetal.(2021) 从2012年起,人类训练的模型识别图像和声音,接近并超过了人类的水平;对自然语言的辨识和处理能力迅速提升,一些单项语言能力迅速超越人类的能力。到2016年时,一个粗略的经验 法则是,只要在一个具体的类别给定5000个标注样本,监督深度学习一般将达到可以接受的性能,当至少有1000万个标注样本的数据集用于训练时,它将达到或超过人类的表现。 图3:大模型缩放定律与涌现能力。左图:当模型大小呈指数增长时,相应的模型性能呈线性增长。右图:当模型尺寸达到一定规模时,性能急剧增加,出现涌现现象。 算力越来越强,算法越来越精妙,神经网络能吞吐的数据量也越来越大。自注意力转换器 (Transformer)的出现,让计算系统可以并行处理更大规模的语言数据量,直到可以从人类所有语料库数据中推算出人类想要的结果。目前神经网络的神经元(参数)的数量,已经远远超过了人脑,达到了数千亿甚至数万亿个,所处理的自然语言数据量也达到了几十万亿级别(接近人脑的连接数),在日益复杂的神经网络中,出现了智能从一项任务向其他任务迁移,当模型的规模达到某个临界值时,那些各自的能力,以及新的能力就会突然“涌现”,其中包括人们所期待的智能的泛化与通用。 涌现是大模型的理论基础,用来解释为什么无需人工干预,就能从原始的自然语言或者多模态数据中自动学习到的特征与模式,并且能用来进行预测和决策。 一般认为,深度学习模型的分层结构和权重学习机制导致了涌现的发生。大模型的训练中,每一层神经元(可视为变量组合)的输出都是下一层神经元的输入,并且模型的每个权重都通过强化学习算法进行学习和更新。当训练大模型时,数据中的统计规律对其内部参数和结构进行调整;一层又一层的权重学习,使得深度神经网络能够自动学会从原始数据中提取隐含的特征和模式,从而实现涌现能力。 涌现这个概念,来自复杂性科学,它的一个 基本论断,就是大量最简单的行为中,可能产生高级和复杂的行为。 大模型不仅知书,而且达理。语言是世界“潜在复杂性的表现”。这意味着语言运作的模型在某种意义上也包含世界运作的模型。通用的大模型,在一定程度上也是一个世界模型。从 DeepMind到OpenAI的终极目标,正是训练出达到甚至超过人类水平的智能,不仅能完成专项任 务,而且能完成多项任务,具有学习、推理、预测等能力,即通用人工智能(AGI)。通用人工智能相信奇点,人工智能终有一天会比人类聪明。 ChatGPT推出仅仅2个月,成为史上用户数量过亿所用时间最短的产品;之后100天左右,GPT-4推出,并迅速与微软的产品全面集成,几乎重新定义了所有的软件服务。盘踞于搜索、云计算和SaaS之上的巨头开开始“跳舞”,硅谷掀起了一场大模型风暴,也引发了通用AI革命。 1.2大模型的缺陷 大语言模型目前引领了人工智能的发展方向,它在带来惊喜的同时,也不时伴随着失望。最大的问题是可靠性。人们最初会容忍一个不成熟的技术,但是不成熟的技术,将无法直接大规 模应用。 ChatGPT在首页提醒了自己的局限:可能偶尔会产生不正确的信息;可能偶尔会产生有害的指令或有偏见的内容;对2021年后的世界和事件的了解有限。许多用户无法容忍的,是它在洋洋洒洒的文章和头头是道的叙事中,隐藏着事实性错误。 而大模型“涌现”智能的原因和机理是什么,一直没有找到合理的解释,它依然像是从一个黑盒子里冒出来的异类智能。它也涌现出人类语言中所固有的认知缺陷,如偏见、歧视、胡思乱想、胡言乱语,等等。人们不知其所以然,难以完全放心。 大模型主要是一场大规模的工程实验的结果,一时还欠缺理论的解释。在它所涉及到的语言学、心理学等领域里,遭遇了权威学者们的抵制与批评;大模型的“智能”,也承受着学术界的严格拷问和批判。 一些人工智能科学家、语言学家、心理学家、哲学家批评,大模型在与人类进行对话时,只是根据人类的提示,对语言数据进行概率统计运算,然后提供一个猜测式的回答,并没有真正理解语言的意义。人类掌握语言的背后,其实是对事实的了解,对物理世界的感知,对因果关系的追求;机器学习对这一切无感,因而并不了解语言的意义,不对事实负责,也不是真正的智能。图灵奖获得者杨立昆说:自回归式的深度神经网络,不可能有未来。 图4:大型语言模型的竞争优势分析矩阵 如何解决可靠性问题?如何建立起一个世界模型?人工智能的研究者们,已经总结出了一系列的工程实践。继续扩大模型,增加参数和语言数据依然是一个方向,但并非唯一可行。现有模型,需要更加精确地理解和掌握人类的意图,如提升语言数据的质量,优化人类反馈的强化学习 (RLHF),更好的提示工程(PromptEngineering),持续精调模型,以及大模型主动发问人类,调用更多外部资源,等等。目前OpenAI并不急于推出GPT-5,而是致力于提升现有模型的稳定性与可靠性,这是未来两年OpenAI的技术方向。 随着插件的推出,以及人类越来越多地把自己的事情委托给基于大模型的应用来处理,人们也担心可能带来的一个后果,是人类牺牲了自己的决策权,而大模型的决策机制是不透明的。 1.3大模型的下一步 OpenAI并不急于训练GPT-5,近两年内,创新迭代的重点,已经不再是马上造出更大的模型,而是让现有的模型变得更好。一方面是推广模型化的应用,建立起生态;另一方面是解决大模型暴露出来的问题。 自主智能体(如AutoGPT)应用的推出,正在让ChatGPT变得像个“玩具”。大模型可以通过API接口,调用其他应用、其他模型,自动完成更为复杂的任务。自主智能体在完成任务的过程 中,能推理工作的步骤。而且这些智能体之间的互动,已经有专家开始探索。智能体还能将工作流与硬件结合在一起,让智能硬件真正具备智能,从而改变物理世界。大模型的训练成本越来越低,正在快速降低使用门槛,变成“小模型”进入到越来越多的边缘计算中,也与越来越多的设备结合在一起,包括手机和机器人。 连续学习,与世界和周围环境同步的能力。一旦模型被训练,它就固定了,无法及时整合来自用户的新反馈和世界的新信息(指的是更改权重的方式)。可以根据新数据对模型进行微调,但这可能会导致性能下降或过拟合。由于训练周期较长,模型训练期间,世界有出现了新的事件、信息和知识,尽管插件已经可以解决部分问题,但大模型自身可能需要探索一种能够持续稳定进行连续学习的方法。 图5:训练模型的技术堆栈,使用三个应和即可完成。Replit官网 多模态大模型。如果大模型在结合文本、图像和视频的数据集上接受训练,以提供对世界如何运作的更丰富的感知,那么它们将减少幻觉。语言大模型与视觉、听觉,以及人类设计和发现的更加复杂的结构结合在一起,可以弥补自然语言智能的不足,对周围环境形成感知,让智能更加完整和“具身”。 大模型的小型化、平民化。开源的大模型,正在帮助实现一张显卡上能训练出百亿级参数的模型,成本仅数百美元。可能在不远的将来,人人都将可以获得本地的、定制化的大模型服务。人类的创造与消费活动将合为一体。 专业领域、细分领域的模型正在大量涌现。用专业知识和领域数据来精调大模型,会减少错误,通常在特定领域内比通用大模型更加可靠。 成为机器人的大脑。以语言大模型为基础,集成多模态模型,利用零样本学习方法让机器人完成任务。通过在真实的物理世界中与环境互动,完成人类任务,形成具身化的人工智能。(如LLM-Brain,谷歌