人工智能现状报告 2024年10月10日 内森·贝纳奇 状态ai 关于作者 内森·贝纳奇 Nathan是AirStreetCapital的普通合伙人,AirStreetCapital是一家投资第一批公司的风险投资公司。他负责管理研究和应用人工智能峰会(RAAIS)、RAAIS基金会(资助开源人工智能项目)、美国和欧洲的人工智能社区以及Spinout.fyi(改善大学衍生创造)。他在威廉姆斯学院学习生物学,并作为盖茨奖学金获得者获得了剑桥癌症研究博士学位。 关于作者 亚历克斯·查尔莫斯 Alex是AirStreetCapital的平台负责人,定期通过AirStreetPress撰写关于人工智能的研究、分析和评论。在加入AirStreet之前,他是MilltownPartners的副总监,为大型科技公司、初创企业和投资者提供政策和定位方面的建议。他于2017年毕业于牛津大学,获得历史学学位。 人工智能(AI)是一个科学和工程的多学科领域,其目标是创造智能机器。 我们相信,在我们日益数字化、数据驱动的世界中,人工智能将成为技术进步的力量倍增器。这是因为今天我们周围的一切,从文化到消费品,都是智慧的产物。 《人工智能状况报告》现已进入第七个年头。把这份报告看作是我们所看到的最有趣的事情的汇编,目的是引发一场关于人工智能的状态及其对未来的影响的知情对话。 我们在报告中考虑了以下主要方面: -研究:技术突破及其能力。 -行业:人工智能的商业应用领域及其商业影响。 -政治:人工智能的管理,其经济含义和人工智能的地缘政治的演变。 -安全:识别和减轻高能力的未来人工智能系统可能给我们带来的灾难性风险。 -预测:我们认为未来12个月将发生的事情,以及2023年的绩效评估,以保持我们的诚实。 由内森·贝纳奇和空气街资本团队制作 定义 人工智能(AI):一个广泛的学科,目标是创造智能机器,相对于人类和动物表现出的自然智能。 人工一般智能(AGI):一个用来描述未来机器的术语,这些机器可以在所有有经济价值的任务中匹配并超越人类认知能力的全部范围。 人工智能代理:一个人工智能驱动的系统,可以在环境中采取行动。例如,一个LLM可以使用一套工具,并且必须决定使用哪一个来完成它被提示要做的任务。 人工智能安全:研究并试图减轻未来人工智能可能给人类带来的风险(从轻微到灾难性)的领域。 计算机视觉(CV):程序分析和理解图像和视频的能力。 深度学习(DL):一种受大脑神经元如何识别数据中的复杂模式启发的人工智能方法。“深度”指的是当今模型中的许多层神经元,它们有助于学习数据的丰富表示,以实现更好的性能增益。 扩散(Diffusion):一种算法,用于迭代去除人为破坏信号的噪声,以生成新的高质量输出。近年来,它一直处于图像生成和蛋白质设计的前沿。 生成式人工智能:一系列人工智能系统,能够基于“提示”生成新内容(例如,文本、图像、音频或3D资产)。 图形处理单元(GPU):一种半导体处理单元,能够实现大量并行计算。历史上,这是渲染计算机图形所必需的。自2012年以来,GPU已经适应了训练DL模型,这也需要大量的并行计算。 定义 (大型)语言模型(LM,LLM):一种在大量(通常)文本数据上训练的模型,以自我监督的方式预测下一个单词。术语“LLM”用于表示数十亿参数LMs,但这是一个动态定义。 机器学习(ML):人工智能的一个子集,通常使用统计技术来赋予机器从数据中“学习”的能力,而无需明确给出如何学习的指令。这个过程 被称为使用学习“算法”来“训练”一个“模型”逐步提高特定任务的模型性能。 模型:根据数据训练的ML算法,用于进行预测。 自然语言处理(NLP):程序理解人类口头和书面语言的能力。 Prompt:通常用自然语言编写的用户输入,用于指示LLM生成某些东西或采取行动。 强化学习(RL):ML的一个领域,其中软件代理在一个环境中通过试错来学习面向目标的行为,该环境根据他们实现目标的行为(称为“策略”)提供奖励或惩罚。 自我监督学习(SSL):一种非监督学习形式,不需要手动标记数据。相反,原始数据以自动方式被修改,以创建可供学习的人工标签。SSL的一个例子是通过屏蔽句子中的随机单词并试图预测丢失的单词来学习完成文本。 变压器:一个模型架构的核心,最先进的(SOTA)ML研究。它由多个“注意力”层组成,这些层了解输入数据的哪些部分对给定的任务最 重要。Transformers始于NLP(特别是机器翻译),随后扩展到计算机视觉、音频和其他形式。 定义 模型类型图例 在其余幻灯片中,右上角的图标表示该型号的输入和输出设备。 输入/输出类型: :文本 :图像 </>:代码 :软件工具使用(文本、代码生成和执行) :视频 :音乐 :3D :机器人状态 :生物形态 型号类型: -:LLMs +→:多模式物流管理系统 ++→:用于机器人的多模态LLM →</>:文本到代码 -:文本到软件工具使用 -:文本到图像 -:文本到视频 -:文本到音乐 -:图像到3D -:文本到3D -:生物模型 行动纲要 研究 -前沿实验室的性能趋同,但随着o1的推出,OpenAI保持了它的优势,因为规划和推理成为一个主要的前沿。 -随着多模态研究进入数学、生物学、基因组学、物理科学和神经科学,基础模型展示了它们突破语言的能力。 -美国的制裁未能阻止中国(V)LLM在社区排行榜上崛起。 工业 -英伟达仍然是世界上最强大的公司,在3T美元俱乐部中享受着一段时间,而监管机构正在调查GenAI内部的权力集中。 -更多的老牌GenAI公司带来了数十亿美元的收入,而初创公司开始在视频和音频生成等领域获得牵引力。 尽管企业开始从模式转向产品,但围绕定价和可持续性的长期问题仍未解决。 -在公开市场牛市的推动下,人工智能公司的价值达到9T美元,而私营公司的投资水平健康增长。 政治 -尽管全球治理努力陷入停滞,但国家和地区人工智能监管仍在继续推进,美国和欧盟通过了有争议的立法。 -计算需求的现实迫使大型科技公司考虑现实世界中的物理限制和他们自己的排放目标。 与此同时,政府自身建设能力的努力继续滞后。 -人工智能对选举、就业和一系列其他敏感领域的预期影响尚未在任何规模上实现。 安全 -从安全到加速的转变正在发生,因为之前警告我们人类即将灭绝的公司需要增加企业销售和消费应用的使用。 -世界各国政府效仿英国,围绕人工智能安全建设国家能力,成立机构,研究关键国家基础设施的潜在漏洞。 -每一个提议的越狱“补丁”都失败了,但研究人员越来越担心更复杂、更长期的攻击。ai2024状态 记分卡:回顾我们对2023年的预测 我们对2023年的预测证据 好莱坞级别的制作利用了生成式人工智能的视觉效果。 一家生成式人工智能媒体公司因在2024年美国大选期间滥用职权而受到调查。自我提升的AI智能体在复杂环境中碾压SOTA(例如AAA游戏、工具使用、科学)。科技公司的IPO市场正在解冻,我们看到至少有一家专注于人工智能的公司(如DBRX)上市。 在热乃缩放热潮中,一个团体花费了100多万1B来训练一个大比例的模型.美国FTC 或英国CMA以竞争为由调查微软/OpenAI交易。 除了高级别自愿承诺,我们认为全球人工智能治理的进展有限。 金融机构推出GPU债务基金,以取代计算资金的风险投资股权美元。 一首人工智能生成的歌曲闯入了BillboardHot100Top10或SpotifyTopHits2024。 随着推理工作量和成本的显著增长,大型人工智能公司(如OpenAI)收购或建立了一家专注于推 理的人工智能芯片公司。 很大程度上很糟糕,但GenAIAI视觉效果已经在Netfix和HBO制作中出现。还没有,但是还有时间。 还没有,尽管在开放性方面的工作很有希望,包括强大的游戏性能。 尽管七大巨头收益颇丰,但私营企业仍在坚守,直到市场稳定下来。然而,人工智能芯片公司Cerebras已经导致IPO。 还没有,让我们再等一年吧。 两家监管机构都在调查这种合作关系。 布莱奇利和首尔峰会的承诺仍然是自愿的和高层次的。 有传言称,一些风险投资基金正在为股权提供GPU,但我们尚未看到任何人走上债务之 路。 事实证明,这种情况在去年的《我袖子上的心》中已经发生过,但我们也看到一首人工智能生成的歌曲在德国排名第27位,并连续几天进入前50名。 据报道,萨姆·奥特曼正在为此筹集巨额资金,而谷歌、亚马逊、Meta和微软都在继续建设和改进自己的人工智能芯片。 第一部分:研究 OpenAI的恐怖统治结束了,直到… 在这一年的大部分时间里,基准测试和社区排行榜都指出了GPT-4和“其他最好的”之间的鸿沟。然而,Claude3.5Sonnet、Gemini1.5和Grok2几乎消除了这一差距,因为模型性能现在开始趋同。 ai2024状态 ●在正式的基准测试和基于vibes的分析中,资金最充足的前沿实验室能够在单个能力上获得较低的分数。 ●现在,模型一直是非常能干的编码者,擅长事实回忆和数学,但不太擅长开放式问题回答和多模态问题解决。 ●许多变化非常小,现在很可能是实施差异的产物。例如,GPT-4o在MMLU 上的表现优于克劳德3.5Sonnet,但在MMLU-Pro上的表现明显不如它,MMLU-Pro是一个旨在更具挑战性的基准测试。 ●考虑到体系结构之间相对微妙的技术差异和预训练数据中可能的严重重 叠,模型构建者现在越来越多地 不得不在新功能和产品特性上竞争。 …草莓着陆了,加倍扩展推理计算 OpenAI团队很早就清楚地看到了推理计算的潜力,OpenAIo1在其他实验室探索该技术的论文发表后几周内就 出现了。 ●通过将计算从训练前和训练后转移到推理,o1以思维链(COT)的方式一步一步地通过复杂的提示进行推理,采用RL来强化COT及其使用的策略。这开启了解决多层数学、科学和编码问题的可能性,由于下一个令牌预测的内在限制,LLM在历史上一直在努力解决这些问题。 ai2024状态 ●OpenAI报告对推理密集型基准测试的显著改进 与4o的对比,AIME2024(竞赛数学)上最明显,得分高达83.83比13.4。 ●然而,这种能力的代价很高:100万个输入令牌 o1-preview的价格为15美元,而100万个输出令牌将花费你60美 元。这使得它比GPT-4o贵3-4倍。 ●OpenAI在其API文档中明确表示,它不是对等的4o替代品,也不是需要 一贯的快速响应、图像输入或功能调用。 o1展示了难以置信的优势和持续的弱点 社区很快对o1进行了测试,发现它在某些逻辑问题和谜题上的表现明显优于其他LLM。然而,它的真正优势在于复杂的数学和科学任务,一个病毒式的视频显示,一名博士生在大约一个小时内复制了他一年的博士代码,反应非常惊讶。然而,该模型在某些类型的空间推理上仍然较弱。像它的前辈一样,它还不能通过下棋来拯救自己的生命。 美洲驼3填补了开放和封闭模式之间的差距 4月Meta掉了Llama3家族,7月3.1,9月3.2。美洲驼3.1405B,它们最大的 迄今为止,能够在推理、数学、多语言和长上下文任务方面与GPT-4o和克劳德3.5十四行诗相抗衡。这标志着开放模式第一次缩小了与专利前沿的差距。 ●Meta坚持使用自Llama1以来一直使用的只有解码器的变压器架构,只做了一些小的改动,即 更多的变压器层和注意力头。 ●Meta用了不可思议的15T代币训练家族。虽然这超出了“龙猫最佳”的训练计算量,但他们发现 8B和70B模型的对数线性提高了15T。 ai2024状态 ●Llama3.1405B经过了16,000个H100GPUs的训练,这是首个以此规模训练的Llama模