视点2023 AI还在 DUMBAS 一块石头? LLM可能如何成为人工智能通用 AI仍然是哑巴作为一块石头? LLM如何成为 通向人工一般的路径智能 视点 AUTHORS ALbertMeige 汤姆·特谢拉 有了善意的承认- 来自LeoBLondeL博士,Associate 学习星球研究所研究员, 巴黎;迈克尔·艾登,合伙人,技术与创新管理, 亚瑟·D·利特尔 受到洛朗博士采访的启发 Alexandre,企业家和作者 LaGuerredesIntelligence(TheWarofIntelligences) 虽然ChatGPT的迅速崛起令人着迷世界,它实际上只是 巨大的冰ft。我们进入了一个人工智能变革时代 (人工智能),其中任何部门都不会保持完整, 这场革命的速度 展开令人眼花缭乱。在这个观点中,我们解决一些关键问题 生成AI。 我们探索了紧急属性,没有人 预期以及它们如何为人造铺平道路通用智能(AGI),并解决相应的不确定性,研究公司如何抓住机会和降低风险。 2 LLM:GENERATIVEAI的“大脑” 2023年1月19日,我的WhatsApp线程LaurentAlexandre博士: Albert:“你好,Laurent,我会很感兴趣知道你对GPT的观点,也许还有 人工智能即将到来?” 洛朗:“我无法想象AGI随时会发生很快……” 2023年3月23日,相同的WhatsApp线程: 阿尔伯特:“你看过微软研究院吗昨天在AGI上发表的论文?" 劳伦特:“是的,这真是太棒了!我没想到进展会如此之快。" 这两个对话,分开只有两个 几个月来,说明已经发生的转变 人工智能的主题。就在一年前,有一种专家们一致认为AGI-也就是说, 人类水平的AI能够处理任何不熟悉的任务 -最终会到来,但不会在这十年。 微软首席执行官SatyaNadella告诉Financial 次数早期的语音助手“都是愚蠢的 一块石头。“。今天,许多专家说,进步是如此很快,它不再可能预测什么 景观将在短短几个月或 甚至几周。越来越多的专家说,AGI 已经非常接近了。 通过培训和创始人的外科医生-泌尿科医生Doctissimo平台,LaurentAlexandre博士是一个有点活泼的性格。人工智能专家,他 一直在研究它对许多人的后果年,特别是在教育和 社会问题。他出版了几本关于主题,包括情报战andLa GuerrredesIntelligencesàl'HeuredeChatGPT(not 但以英语发布)。 如果AGI很快就能看到曙光,它会当然会带来许多激进的机会-但是 也是新的激进风险。事实上,一些专家认为如果一个AGI看到了白天的光, 人类的诱惑过程将是彻底的 受影响。在这个观点中,我们探索了大片- 指标模型(LLM)和AGI,并检查前者也许是通往后者和高 照亮事物如何可能的一些不确定性 evolve.Finally,welookatsomeoftheopportunities 和AGI的风险,并建议如何最好地解决他们往前走。 “我们的小姐离子是 确保艺术- 社会通用智能-gence-AI的特点这通常是 比 人类-benef其全人类”。 SamAltman,OpenAICEO 如图1所示,生成的历史 AI还是比较短的。这一切都始于变分自编码器(VAE)的发明2013年和生成对抗网络(GAN) 在2014年初。最新的这些已经被使用生成效果令人印象深刻的图像。 例如,“埃德蒙·德·贝拉米的肖像”是AI制作的第一件艺术品(GAN档案-构造)将在拍卖室(它 2018年10月在佳士得拍卖行以432,500美元的价格售出)。Google推出了Transformer架构 (见下文),这是LLM的基础,在2017年。然后我们2020年进入“大模型”时代,模型 例如GPT-3,尺寸增加了100倍相比于其前身GPT-2发布了一点一年多以前。2022年看到了 新车型数量激增应用。 LLM可以与自动完成进行比较 智能手机或互联网搜索引擎:当您键入字母“t”,电话将提出“the”因为这是最有可能的词。同样 可以用单词,句子和整个 段落。例如,在搜索中键入“how” 引擎可能会返回一个共同的答案,如 如“杯子里有多少盎司”。在许多情况下,你甚至可能会发现,当你选择单词时- 通过你的手机,返回的句子是 胡说八道,甚至可能不是语法上的正确。 LLM是AI系统,在巨大的 大量的文本数据。它们被设计为低于- 站立有序数据,如句子中的单词或 旋律中的音符。然后,他们可以生成文本 is连贯和相关到给定的提示。The 变压器神经网络体系结构介绍 由谷歌研究人员AshwinVaswani等人在2017年题为“注意力是你所需要的”的论文至关重要LLM的成功。Thekeyinnovationofthe 建筑是自我注意机制,它允许模型权衡 生成输入提示时的各种单词 输出。换句话说,注意力机制-nism使它能够识别和优先考虑重要的输入文本的部分,而忽略无关或 冗余信息,允许它绘制“全局” 输入和输出之间的依赖关系“(请参见 边栏“‘注意是你所需要的一切’-对于假人’” 更多细节)。 然而,这种架构有一个固有的缺陷,这通常被称为“幻觉”。 设计,变压器将始终预测下一个给出输入的单词,不考虑真相或任何其他因素。通过一连串的“坏” (或低概率)决策,完全错误 然而,听起来不错的答案将被称为“真理”。尽管它不是“鹦鹉”,但许多评论家喜欢 称之为变压器,变压器仍然缺乏能力遵循一个目标,一个预定的结果,不是一系列单词预测的结果; 而是仅取决于以前的文本。 图1-生成AI模型的简短历史和2022年的爆炸 2014 2015 2016 2017 2018 2019 VAE和GAN 变压器 2013:变分自动编码器(VAE),人工神经网络建筑属于家庭的概率图 2014年:生成对抗网络(GAN),其中两个神经网络竞争彼此以零的形式- GAN的重大进展模型架构,损失函数,和培训过程;此外,GAN被用来探索新的 2017年:Google的变形金刚论文2018:OpenAI的GPT和GPT-2(1.5B参数)2019:Google的T5(11B个参数) 模型和变分贝叶斯 总和游戏,其中一个网络的 域,如图像到图像 方法已经打开了 得失是对方的损失 翻译与音乐生成 生成AI的方式 2020 2021 2022 2023 GPT-3 地鼠 chinchilla Dall-E2 OpenAI(175B)GoogleDeepMindGoogleDeepMind通过OpenAI 参数)GPT-J 由EleutherAI(开源) LaMDA和PaLMImagen 由Google由Google OPT 通过Meta 大型模型GPT-NeoX 各种生成家庭的合并,示例:由EleutherAI(开源) VQ-GAN将GAN鉴别器引入VAE架构 视觉变形金刚展示了如何训练对图像进行操作的变压器 布卢姆 通过拥抱的脸(开源) 资料来源:亚瑟·D·利特尔;大卫·福斯特(生成式深度学习,2019年;“生成AI时间线”,访问2023年) “注意就是你所需要的”- ForDummies 图A-变压器架构-简化 输入文本嵌入编码解码 层层层 输出文本 来源:ArthurD.Little;Vaswani,Ashish等。“注意就是你所需要的。”谷歌研究,NIPS,2017 变压器体系结构包括 多个人工神经元层。它的目标是 预测下一个单词,给定一个输入文本 (输出文本中的青色如图 A)。这些层包括: 前馈networks.The注意层计算的重要性 每个单词相对于所有其他单词。前馈层检测有意义的 词之间的关系。 -嵌入。输入的句子变成了一个数学 表示形式,以允许模型捕捉每个人的语义含义的单词。 -编码。编码器旨在捕获整个输入的语义含义。 输入嵌入通过 编码器,由注意and -解码.解码器,在 本质上是编码器的反面架构,使用信息 由编码器提供,它是什么已经“知道”关于语言 创建最可能的输出。要放置它简单地说,它解码数学将编码器抽象为 单词的数学表示。 LLM:EMERGENTPROPERTIES 领导AGI? 当谷歌发明了变压器架构-2017年,关键技术砖下面- 撒谎的法学硕士,它发表了研究结果在一个学术文件,而不是保密或提交 专利。有人可能会质疑谷歌决定这样做 所以,考虑到今天围绕这些模型的牵引力。虽然谷歌一直在开发自己的 LLM,如LaMBDA和PaLM和应用程序坐在它们上面,它也很好奇 允许OpenAI首先推出ChatGPT。鉴于事实,情况更加有趣 今天许多专家认为LLM可能会导致通往AGI的路. 我们将在即将到来的LLM价值链中讨论蓝移片(很可能是谷歌 和OpenAI竞争,开源社区 willbethewinner).Bu1tthereasonGooglefirst 在一篇学术论文中发表了建筑 可能是因为当时,没有人真正期望变形金刚和LLM变得如此强大和以具有如此有趣的紧急属性:在特别是执行视觉推理的能力, 跨各种学科的推理,以及能力 填补空白(请参阅我们之前的观点“我的 孩子们用ChatGPT代替了我”及以下)。在与以前的大多数AI架构相比, 变形金刚似乎不会停止改进 他们的尺寸增加了。此外,许多专家建议- Gest由此产生的LLM表现出不可预见的紧急情况- 可能是踢砖之一的gent属性把我们引向AGI. 那么什么是AGI(或STrongAI)? AGI是一种AI,相当于或更好 比人类在任何范围的任务(不像狭窄的人工智能,比人类更好的速度- cificsetoftasks).AAGIwould-bydesign-be 能够自己学习所需的信息- 解决给定任务的信息。第一个问题,因此,如何决定AI是否具有 达到AGI级别,以及哪些标准应该是考虑。 事实上,决定取决于所选择的 “智力”的定义。我们更喜欢这个定义通常由麻省理工学院使用 技术教授MaxTegmark在他的书中寿命3.0:“智力是完成任务的能力复杂的目标。“。定义很简单,而且足够广泛,可以包含很多东西。然而,要确定AI是否比人类更好,定义需要更加具体。 回到1997年,一个由52名国际心理学家组成的小组-gists用以下方式定义智力:“A 非常普遍的心理能力,除其他外 事情,涉及推理、计划、解决的能力问题,抽象地思考,理解复杂 想法,快速学习,从经验中学习。"2 有了这个更具体的定义,就可以为每个部分定义一系列测试 定义以决定AI是否处于人类水平。可以 它的原因?它能计划吗?它能解决问题吗?它能抽象地思考?它能理解复杂的想法吗? 它可以快速学习吗?它可以从经验中学习吗? 1Patel,Dylan,andAfzalAhmad."Google'WeHaveNoMoat,andneitherOpenAI。‘“半分析,2023年5月4日。 2Gottfredson,LindaS.“情报的主流科学:一个 有52个签署者的社论,历史和参考书目。“Intelligence, 第24卷,第1期,1997年。 这正是微软的一个研究团队 最近做了,并发表在一个有洞察力的杂志上-demicpaper,“人造通用智能的火花- gence:GPT-4的早期实验。“。在本文中,微软研究团队解释了他们 与典型的以基准为中心的评估不同-使用机器学习,取而代之的是采用传统的心理学方法,利用 为了评估人类的创造力和好奇心 GPT-4的整体情报能力。在最初ChatGPT和GPT-4的试验,研究人员发现后者能够实现 人类在复杂和创新中的表现- 跨各个领域的主动任务,如数学- 数学、计算机编码、视觉、医学、法律和心理学。一些结果确实令人印象深刻-sive:图2是微软论文的摘录 描绘了众多测试之一 performed.Inmanyotherthings,GPT-4knows 如何以稳定的方式堆叠一本书,九 鸡蛋,一台笔记本电