人工智能之父JürgenSchmidhuber人工智能算法的局限和突破 Q:再次欢迎来到MLST,非常荣幸能有您参加节目。 JürgenSchmidhuber:我的荣幸,感谢邀请我。 Q:你认为未来人工智能技术的突破会减少计算量吗?我上周采访了ARCchalenge的获胜者JackCole,他认为我们需要离散程序合成,需要可能是神经引导的符号人工智能或神经符号人工智能。 人工智能之父JürgenSchmidhuber人工智能算法的局限和突破 Q:再次欢迎来到MLST,非常荣幸能有您参加节目。 JürgenSchmidhuber:我的荣幸,感谢邀请我。 Q:你认为未来人工智能技术的突破会减少计算量吗?我上周采访了ARCchalenge的获胜者JackCole,他认为我们需要离散程序合成,需要可能是神经引导的符号人工智能或神经符号人工智能。他还提到神经网络是“宽但 浅”,而符号方法是“狭窄但深入”。你对此有什么看法? JürgenSchmidhuber:我完全同意。深度学习无法解决计算机科学中的很多问题,例如基础理论改进。深度搜索树更能确保新定理的正确性。虽然深度学习可以用来寻找捷径或识别模式。有很多问题可以通过非深度学习的方法更快更高效地解决。例如符号操作,当前的语言模型在遇到符号操作问题时,也是调用传统的符号计算方法来解决。 Q:确实,我们常说神经网络是有限状态自动机,而不是图灵机。多年来,LeCun和Hinton等人试图反驳这个观点,他们认为神经网络原则上可以进行符号抽象操作。但你认为它们有很明显的区别,对吗? JürgenSchmidhuber:是的,循环网络就是一台通用计算机,所以原则上你可以在循环网络中计算任何在笔记本电脑上可以计算的东西。 Q:一篇1995年的论文证明了这一点,它使用了任意精度,似乎有些作弊,通过增加权重的精度来假装是图灵机。 JürgenSchmidhuber:你指的是Siegelmann的论文?那篇论文的论点不太有说服力,因为它需要对权重进行无限精确的计算。循环网络作为通用计算机的证明并非那么简单,但它确实表明在这些网络中可以实现NAND门。因此,任何笔记本电脑可以做的事情,循环网络也可以做到。 Q:我同意,但很多人会提出图灵机可以通过扩展内存处理潜在无限数量的情况,这是否意味着图灵机提供了更多的可能性? JürgenSchmidhuber:这只是一个理论。图灵机是图灵在1931年提出的,用来讨论计算和人工智能的基本限制。图灵机的理论构造与现实可以构建的东西无关。在现实世界中,所有计算机都是有限状态的自动机。 Q:理论上,Python解释器可以执行无限多的程序,而神经网络只能识别它们训练过的有限事物,这是两者的根本区别。 JürgenSchmidhuber:理论上是这样,但在实际操作中,因为存储空间有限,所有计算设备都受限于有限状态自动机。我们能实现的,是由循环神经网络代表的有限状态自动机。有些任务,比如乘法运算或定理证明,某些自动机更高效。 这些自动机看似简单,但在神经网络中实现并不直观。理论上,它们是等价的,但在实用计算中,没有超越有限状态自动机的优越性。大多数实际问题都很简单,只需要有限存储和计算能力即可。 因此,我们专注于用循环神经网络或Transformer解决实际问题。 Q:希拉里·普特南提到过多重实现性,任何计算都可以用不同的物理系统来表示。在我更多热点资讯+V入群:mu3003mu 看来,多重实现性的奇妙之处在于其表示和概括能力。这种方式是人工智能的一种理想形式,可以通过紧凑的符号表示处理可能在无限多种情境下工作的事物,而不是单纯记住所有不同的操作方式。 JürgenSchmidhuber:是的,但是这个概念很难划定边界。 我们在讨论奇偶校验问题之前,就明确了一点,Transformer无法学习奇偶校验的逻辑。奇偶校验是一个简单的问题,就是判断一串二进制数字中是奇数还是偶数。要解决这个问题,你需要逐个读取位,你就有了一个很小的循环网络,只有一个从隐藏单元到自身的侦察连接。每当一个新单元进入,内部状态就会在1.0和0.0之间翻转。这个类似小逻辑电路的东西能解决Transformer解决不了的奇偶校验问题,循环神经网络当然也能做到。 这就是我从80年代开始对循环神经网络着迷的原因,因为它们在通用计算的意义上是通用的,只需在需要时增加存储,就能处理更复杂的问题。 Q:我认为,RNN作为计算模型的基础和它作为可训练神经网络的实际用途是有区别的。因为1991年的那篇论文表明,RNN不能通过梯度下降进行训练,而只是以一种特殊的方式输入信息,使它表现得像图灵机。我们希望它们不仅可训练,而且有实际用处。 JürgenSchmidhuber:确实,这就是一个问题。一个学习奇偶校验的小网络只有5个连接,梯度下降并不适用。 最好的办法是随机初始化权重,如果解决了训练样本的奇偶校验,它几乎肯定能泛化到所有长度。这个小网络比前馈网络更强大,如果训练一个前馈网络解决9位奇偶校验,它无法泛化到10位或11位,而这个小网络可以泛化到任何类型的奇偶校验输入。 我们有一个非传统的学习算法,就是随机搜索权重,只需尝试1000次,看是否解决了训练集中的问题。1997年的LSTM论文中也提到,有些问题不适合梯度下降学习,离散程序搜索可能更合适。权重矩阵是网络的程序,梯度下降有时会陷入困境,而其他搜索方法可以找到你真正需要的权重设置。 从1987年以来的研究来看,我们的研究涵盖了很多象征性的算法,这些算法专注于渐近最优问题解决者,如2003年的OOPS,这些算法与神经网络无关。但神经网络在很多实际问题上表现良好,即使没有理论证明。这两种方法的界限很难划定,因为它们之间的区别已经越来越模糊了。 在90年代初,我们有子目标生成器,可以做一些像是符号化的事,但其实是通过系统中的梯度下降实现的。 这个系统学会了把实现目标所必须执行的动作序列分解成有意义的块。这样你就可以从开始到目标,然后从子目标到目标,所有看起来有点像符号化的事情。 但现在我们发现神经网络也能实现,并且甚至可以通过梯度下降来对齐。当然我们也碰到了其他问题导致梯度下降失败。所以你不会考虑把梯度下降当作能解决所有问题的万能方法。这并不是神经网络的问题,因为神经网络可以用许多非梯度下降的方法来训练。 Q:这是一个有趣的观点。你职业生涯中花了很多时间研究元学习,这涉及更高阶的学习方法。正如你提到的,在元学习中可以混合多种模式,比如随机梯度上升、符号模式以及复杂的元推理模式。对于目前进行arc挑战的人,他们在进行离散程序搜索,有的尝试在顶层使用元模式的神经搜索或完全不同的方法。你认为应该怎么做?JürgenSchmidhuber:你需要看具体问题的性质。虽然我没有研究所有问题,但我确信,很多问题可以用类似最优顺序问题的方法来解决。这是一种渐进的最优方式,找 更多热点资讯+V入群:mu3003mu 到解决计算问题的程序,使验证时间与解决方案大小呈线性关系。 这是一个重要的概念,与P和NP问题有关。有一种最优的方法进行程序搜索,类似1973年的通用搜索算法。最优顺序问题求解器基于这种方法,以渐进最优的方式解决新问题,利用先前问题的解决方案。这种方法并不局限于神经网络或深度学习领域, 但你可以将神经网络用作基本指令,并测量其运行时间。最优的运行方式是将时间分配给测试程序,优先考虑简单和快速的方法。 这些程序可以包含各种原始指令,比如Transformer的反向传播等,但需要测量其运行时间。如果消耗时间过多,就要中断程序并调整分配时间,寻找易于验证的解决方 案。虽然这些看起来很符号化,但我在90年代已经将这些原则应用于神经网络。这其实是另一种搜索神经网络权重的方法,不是通过梯度下降,而是更智能的方法。 如果运气好的话,还能带来更好的泛化效果。因为这些方法能够找到解决问题的最短、最快的方式,最小化算法复杂性或Kolmogorov复杂性。 这些方法在神经网络的运行时间限制下,有助于更好地泛化。因此,传统的符号推理、程序搜索和神经网络之间存在一定的重叠。 人工智能与AGI发展讨论 Q:那么,技术行业是否试图挖走你的团队? JürgenSchmidhuber:他们确实这样做了。他们当然试图挖走我的合作者。 例如,在2010年和2011年,当我们在神经网络上取得快速转化的成功时,苹果确实成功地挖走了我一位获奖团队成员。有些人认为苹果在深度GPUCNN领域来得太晚,但并非如此,他们在这一领域商业化后就积极参与了。 而谷歌DeepMind是由我实验室的一名学生和其他人共同创办的,他们的第一位员工是我的另一位博士生。后来,他们还聘用了我的许多博士后和博士生。 Q:顺便说一句,前几天我在推特上看到一个有趣的段子,一位女士说:“我不想让人工智能为我完成我的艺术创作,我想让它洗碗。” JürgenSchmidhuber:这就是我♘♘在70年代说过的话。她说,“给我造一个能洗碗的机器人。”Q:是的,没错。但我想要探讨的是,为什么人们会认为ChatGPT正在走向通用人工智能(AGI)? 而我看它时,觉得它只是一个数据库。它没有知识获取,因此没有推理能力。它没有创造力,也没有自主性。它没有我们所拥有的许多认知特征。 然而,人们却对它产生了兴趣,要么是故意将其拟人化,要么是自我欺骗,或者他们真的看到了什么。 你认为这可以用什么来解释呢? JürgenSchmidhuber:在我看来,情况是那些对AGI保持怀疑态度的人质疑了几十年,被ChatGPT的诞生说服,转而相信和之前相反的观点。因为突然之间,你有了一台在图灵测试中表现得非常好的机器。 他们认为,AGI来了。但我认为所有因为ChatGPT和其他大型语言模型而开始担心AGI的人,主要是因为他们不太了解人工智能,不了解背后的神经网络的局限性。今天我 们已经提到过一些这些神经网络根本做不到的事情。 实际上有点奇怪的是,我多年来一直在倡导,或者说在炒作AGI。我在70年代告诉我♘♘,在我有生之年AGI一定会实现的。在80年代,我所有的同事都认为我疯了。但突然,很多不相信我的预测的人改变了自己的想法,只是因为ChatGPT的出现,他 更多热点资讯+V入群:mu3003mu们就开始认为离AGI已经很近了。 我认为唯一的原因是他们并没有真正理解这些大型语言模型的本质和局限性。Q:我明白,但我无法理解这一点。因为其中许多人,特别是在硅谷的那些人,他们在技术行业工作,他们正在研究这项技术,他们却不了解机器学习是如何工作的。我只能理解为有时你会碰到一些非常聪明的人,在其他方面却容易被迷惑,或者说,一定有什么东西可以解释他们为什么看不到这一点。 我的意思是,这些都是机器学习模型,它们只能将参数化的曲线拟合到数据分布中,在密度大的地方效果很好,而在密度小的地方效果就不好了。为什么他们会认为这是神奇的呢? JürgenSchmidhuber:也许是因为他们中的许多人都是风险投资家。他们被一些正在成立初创公司的科学家所说服,这些科学家声称他们的新初创公司非常接近成功,需要大量投资。 因此,我认为产生这种误解的一个原因是,一些机器学习研究人员过度夸大了当前大型语言模型的能力。而风险投资家并不了解实际上发生的事情,他们只是试图找出将钱投在哪里,并愿意跳上任何额外的炒作列车。 AGI是可能的,它将会到来,而且他们不是那么遥远的未来,但它将只把大语言模型作为一个子模块,因为通用人工智能的核心目标是完全不同的东西,它更接近强化学习。 现在你可以作为一个强化学习者从监督学习中获得很多好处。例如,你可以构建一个世界的预测模型。你可以利用这个模型,这个模型可能是由与语言模型相同的基础模型构建的,你可以在这个世界模型中使用它来规划未来 的行动序列。 但现在情况确实不同了。现在你需要有一些具体化的人工智能,比如