会议主题:《FiresideChatwithIlyaSutskeverandJensenHuang:AITodayandVisionoftheFuture》 会议时间:2023年3月23日主办方:NVIDIA 欢迎联系:中信前瞻陈俊云/高飞翔 FiresideChatwithIlyaSutskeverandJensenHuang:AITodayandVisionoftheFuture 【嘉宾】 IlyaSutskever,Co-founderandChiefScientist,OpenAIJensenHuang,FounderandCEO,NVIDIA 概览 【背景】本次谈话发生在GPT-4推出的第二天。过去一段时间内,OpenAI推出的ChatGPT以及其他的GPT产品在全世界范围内造成了非常深远的影响,也将AI这个已经是热点的话题再次推向了风口浪尖。在此背景下,本次交流聚焦在AI在今天的应用以及未来的发展。 【Q&A】 Q:我想我想回到最开始问你深度学习的问题。你对深度学习的直觉是什么?为什么你知道它会起作用?你心中就一定认为深度学习会取得如此成就吗? A:深度学习的惊人力量改变了世界。我觉得我个人的出发点在于对AI巨大影响力的直觉。我也很好奇什么是意识什么是人类经验,我觉得AI的进步会帮助我理解这些。 从2000年到2003年时候,学习似乎只是人类能做的事情,而计算机根本做不到。在2003年和2002年,计算机什么也学不到。甚至不清楚这在理论上是否可行。所以我在想如果能在智能学习或者机器学习方面作出一些成果将很有可能成为AI领域最大的进步。然后我开始四处寻找,一开始不够乐观。 幸运的是,JeffHinton是当时所在大学的教授,我找到了他,他研究的是神经网络正好是我认为有意义的,因为神经网络特性就在于能够学习,可以自动编程的并行计算机。那时候并行计算机规模还很小,但当人们弄清楚学习神经网络是如何工作的,你可以为小型并行计算机编程。它和大脑也很相似,所以就有了理由继续走下去。但还不清楚如何让它起作用,不过根据现有的事情,可以知道他前景是光明的。 Q:当你第一次开始在你第一次开始研究深度学习神经网络的时候,这个网络的规模有多大?当时的计算规模是多少? A:当时没有人认识到规模的重要性。所以人们训练的神经网络只有50个,或者100个,几百个神经元。一百万个参数被认为是非常大的。我们会在没有优化的CPU代码上运行我们的模型。我们研究人员不知道BLAS,我们使用Matlab。JeffHinton对训练神经网络在小数字上很感兴趣,一方面是分类任务,另一方面是如何生成那些数字。所以生成模型的源头从那里开始。但问题是,那些东西还很零散,什么才能真正推动技术进步?当时看起来并不是正确的问题,但现在被认为是正确的。 Q:AlexNet是在2012年创立,当时你和亚历克斯在AlexNet工作过一段时间。你什么时候确定想要建立一个面向计算机视觉的神经网络,Imagenet才是那个合适的数据集,应该做些事儿来参加计算机视觉的竞赛? A:我可以谈谈这里的背景。大概在那之前两年,我就清楚地意识到监督式学习才是我们前进的方向。我可以准确地解释为什么。这不仅仅是直觉,也是无可辩驳的。如果你的神经网络又深又大,那么它就可以被配置来解决这个困难的任务。这就是关键词“深而大”。 那时候人们关注的不是大型神经网络而是神经网络的一些深度。但大多数机器学习领域根本没有研究神经网络。他们研究各种贝叶斯模型和内核方法,这些理论上都是很好的方法,但并不表示是一个好的解决方案。而大型的神经网络在面对问题求解时能给出一个好的答案,这需要大的数据集以及大量的计算。 我们也在优化方面做了一些工作,优化是一个瓶颈。研究生JamesMartens取得了突破,他提出了一种优化方法用二阶函数来实现。但重点是它证明了我们可以训练这些神经元。如果你能训练神经网络,你就把他变大一些,然后去找一些数据,你就会成功那么接下来的问题是,找什么样的数据?答案是ImageNet。当时ImageNet是一个难度很高的数据集,但若想训练一个大型卷积神经网络,在数据集上它必须成功。 Q:你怎么能发现GPU在解决这方面的问题上是可用的?是从哪天开始的? A:一开始Jeff将GPU带到了实验室里,但我们不清楚到底要用它们来做什么。但接下来发现,随着 ImageNet数据集的出现,卷积神经网络是非常适合GPU的模型,可以把它变得非常快,因此就能做规模远超以前的训练。AlexKrizhevsky喜欢使用GPU进行编程,Alex他开发了非常快的卷积核函数,然后去训练神经网络最终取得了结果。这是非常显著的突破,打破了当时许多记录。这并不是之前方法的延续,而是一种全新思路。 Q:快进到你来了硅谷,和朋友创办了OpenAI。关于OpenAI工作的最初想法是什么?最早的源动力是什么?怎样达到了现在的成就? A:是的。所以很明显,当我们开始的时候,并不是100%清楚该如何继续。这个领域和现在的情况也有很大不同。在2015年-2016年,早在2016年初,我们开始的时候,整件事看起来很疯狂,当时的研究人员少得多可能比现在人数少了100到1000倍。当时我们有大约100个人,他们中的大多数为谷 歌/DeepMind工作,人员非常稀缺。 我们有两个大的最初想法。第一个是通过压缩进行无监督学习。今天,我们理所当然地认为监督学习是一件简单的事情。在2016年,无监督学习在机器学习领域是一个未解决的问题,我一直认为好的数据压缩将产生无监督学习。虽然压缩并不是人们常常提起的一个词,但是人们最近突然理解了这些GPT实际上压缩了训练数据。从数学意义上讲,训练这些自回归模型可以压缩数据的。如果压缩的好,你就必须能够提取其中存在的所有隐藏信息。这是关键。 我们真正感兴趣的第一件事是OpenAI中对情绪神经元的一些工作。在机器学习领域,可能没有很多人关注,但实际上它影响很大,这项工作的结果是神经网络,但它并不是Transformer,而是Transformer之前的模型,那就是小型循环神经网络LSTM,我们使用LSTM预测Amazon评论的下一个字符,我们发现如果预测下一个字符足够好,就会有一个神经元在LSTM内对应它的情绪。这展现了无监督学习的一些效果,并验证了良好的下一个字符预测的这种想法,压缩具有发现数据中的秘密的特性。这就是我们现在在GPT模型中看到的。 Q:那我们从哪里可以获得无监督学习的数据? A:我想说在无监督学习中,困难的部分不在于你从哪里得到数据,虽然现在这仍然是个问题;但更多的是关于为什么要这么做?困难的是要意识到训练这些神经网络来预测下一个token是一个有价值的目标。在GPT-1之前有关情绪神经元的工作对我们有很大的影响。然后Transformer出来了,我们立即想到就是它了,并在此基础上训练了GPT-1 Q:你对于模型和数据大小的扩展规律的直觉,相对于GPT-1、2、3,哪个先出现?你有看到GPT的发展路径吗,还是现有扩展规律的直觉? A:直觉。我有一个非常强烈的信念,更大是更好。在OpenAI,我们的目标之一就是弄清楚规模扩展的正确途径。问题是如何准确使用它。还有一点很重要,那就是强化学习。在OpenAI中完成的第一个真正的大项目是我们努力解决一个实时策略游戏--Dota2。所以我们训练一个强化学习agent来对抗自己,目标是达到一定水平,这样它就可以和世界上最好的玩家竞争。这也是一项重大任务,是一种非常不同的工作方向。现在有一种趋同的趋势,GPT产出了技术基座,从Dota的强化学习转变为人类反馈的强化学习,这种组合给了我们ChatGPT。 Q:现在有一种误解,认为ChaGPT本身只是一个巨大的大型语言模型,但事实上围绕它有一个相当复杂的系统,你能为观众简单解释一下吗? A:我们可以这样想,当我们训练一个大的神经系统来准确地预测下一个单词时,我们所做的是在学习一个世界模型。表面上看,我们只是在学习统计相关性。但事实证明,只要学习统计相关性就可以很好地压缩这些知识。 神经网络所学习的,是产生文本的过程的一些表述。这些文本实际上是这个世界的一个映射,所以神经网络正在学习从世界越来越多的方面看待这个世界,看待人类和社会。神经网络学习一个压缩的、抽象的、可用的表述。这就是从准确预测下一个词的任务中学到的东西。此外,你对下一个词的预测越准确,还原度越高,在这个过程中你得到世界的分辨率就越高,这就是预训练阶段的作用,但这并不能让神经网络表现出我们希望它能够表现出的行为。 一个语言模型,它真正要做的是回答以下问题,如网上有一些随机的文本,以一些前缀开始,一些提示,它将如何完成?如果只是随机寻找一些片段填充,这和我想拥有一个助手是不同的,我想要的助手要诚实,要有帮助,要遵守一定的指导规则,这就是微调,这就是对来自于人类教师强化学习和其他形式的人工智能协助可以发挥作用的对方,不仅仅是向人类学习,也是人类和AI合作的强化学习。在这里我们不是在教授它,我们是在与它交流,希望它成为什么样。而这个过程,也就是第二阶段也是非常重要的。第二阶段做得越好,这个神经网络就越有用,越可靠。所以第二阶段是非常重要的,第一阶段,尽可能多地从世界的映射中学习,也就是文字。 Q:你可以对它进行微调,你可以指示它执行一些特定任务,能不能指示它不做一些事情?这样会给它设置一些安全护栏,去避免某一类型的行为 A:是的。所以训练的第二阶段是我们向神经网络传达我们想要的任何东西,我们训练得越好,我们传达的边界的保真度就越高。所以通过不断的研究和创新来提高保真度,从而使它在遵循预期指令的方 式上变得越来越可靠和精确。 Q:ChatGPT在几个月前就出来了,是历史上增长最快的应用程序;现在是GPT-4发布的第一天,它在许多领域的表现令人震惊,包括SAT,GRE等,都能获得很高的分数。什么是ChatGPT和GPT-4之间的主要区别?以及GPT-4在这项领域中的改进有哪些? A:GPT-4相比ChatGPT的基础上,在很多方面都有了实质性的改进。GPT是第一个主要的区别,这也许是最重要的区别。在GPT-4的基础上构建预测下一个单词具有更高的准确度。这很重要,因为它预测的越好,那么它理解得越多。随着对课文的理解不断加深,GPT-4预测下一个单词的能力也变得更好 Q:人们说,深度学习不会逻辑推理,那么GPT-4是如何能够学会推理的?如果它学会了推理,我将要问的就是做了哪些测试?它在预测下一个单词的时候,是否在学习推理?局限性是什么? A:推理并不是一个很好定义的概念,但我们可以试着定义它。也就是说,当你走得更远的时候,你如果能以某种方式稍微思考一下,并且因为你的推理得到一个更好的答案。我们的神经网络也许有某种限制,基本的神经网络能走多远,也许还有待观察。我认为我们还没有充分挖掘它的潜力。在某种程度上,推理还没有达到那个水平。 Q:在我看来,当我们使用ChatGPT的时候,它展现了某种程度上的推理水平,所以我认为ChatGPT天然具备这种内在能力 A:某种程度上,用一种方式去理解现状,这些神经网络有很多这样的能力。他们只是不太可靠。 可靠性是让这些模型有用目前最大的障碍。有时候,这些神经网络还会产生幻想,或者可能会犯意想不到的错误,而人类不会犯这些错误。正是这种不可靠性让它们用处大大降低。但我认为,通过更多的研究,或者一些远大的研究计划,我们一定能实现更高的可靠性这样模型才会真的有用,并且能让我们设定精确的护栏,也就是模型学会问清楚它不确定的地方或者压根不知道的知识。 当模型学会后,它不知道的问题不会回答,回答的答案也会非常可信。这是当前模型的一种瓶颈。这不仅仅是模型是否具备特定的能力。 Q:我之前看过一个视频,展现了GPT-4利用维基百科做检索的能力。那么GPT-4是否真的包含检索能力?它是否能够从事实中检索信息以加强对你的响应? A:当前GPT-4发布时,并没有内置的检索功能,它真的只