AI报告的状态。 2024年10月10日 NathanBenaich AIRSTREETCAPIT.AL stateof.aiairstreet.com 关于作者 NathanBenaich Nathan是的普通合伙人空中街首都一家专注于投资AI-first公司的风险投资公司。他负责组织ResearchandAppliedAISummit(RAAIS)、RAAIS基金会(资助开源AI项目)、美国和欧洲的AI社区以及Spinout.fyi(旨在提升大学衍生企业的创建)。他在威廉姆斯学院学习生物学,并作为盖茨奖学金获得者在剑桥大学获得了癌症研究博士学位。 关于作者 亚历克斯·查默斯 Alex是平台负责人空中街首都并通过以下方式定期撰写有关AI的研究,分析和评论空气街出版社在他加入AirStreet之前,他曾在MilltownPartners担任高级顾问,为大型科技公司、初创企业和投资者提供政策和定位方面的建议。他于2017年在牛津大学获得历史学学位。 人工智能(AI)是科学与工程的多学科领域,其目标是创建具有智能的机器。我们相信,在我们日益数字化、数据驱动的世界中,AI将成为推动技术进步的力量倍增器。这是因为当今周围的一切,从文化到消费品,都是智能的产物。 《人工智能报告》现已进入第七个年头。将此报告视为对我们所见最有趣事物的汇总,旨在引发关于人工智能现状及其对未来影响的知情讨论。 我们在报告中考虑以下关键维度: -研究:技术突破及其能力。 -行业:AI的商业应用领域及其业务影响。 -政治:人工智能的监管、其经济影响和人工智能不断演变的地缘政治。 -安全:识别和减轻未来高性能人工智能系统可能给我们带来的灾难性风险。 -预测:我们认为未来12个月会发生什么,以及2023年的业绩评估,以保持我们的诚实。 由NathanBenaich和AirStreetCapital团队 Definitions 人工智能(AI):一门广泛的学科,旨在创建智能机器,而非人类和动物所展现的自然智能。 Artficial一般智力(AGI):用于描述未来可能与人类在所有经济上具有价值的任务中展现出全面认知能力相当甚至超越的机器的术语。 AIAgent:一种由人工智能驱动的系统,可以在环境中采取行动。例如,一个大型语言模型(LLM)可以访问一系列工具,并需要决定使用其中哪一个以完成被要求执行的任务。 AI安全:一个研究并尝试减轻未来人工智能可能对人类构成的风险(从轻微到灾难性)的领域。计算机视觉(CV):程序分析和理解图像和视频的能力。 深度学习(DL):一种受大脑神经元识别复杂数据模式启发的AI方法。“深度”指的是当前模型中多层神经元,这些层次有助于学习丰富的数据表示以实现更好的性能提升。 扩散一种迭代去噪算法,用于处理人工篡改的信号以生成新的高质量输出。近年来,该算法在图像生成和蛋白质设计领域处于前沿地位。 生成式AI:一种能够根据“提示”生成新内容(例如文本、图像、音频或3D资产)的AI系统家族。 图形处理单元(GPU):一个用于并行计算大量数据的半导体处理单元。历史上,这一单元主要用于渲染计算机图形。自2012年以来,GPU已适应训练深度学习模型,这些模型同样需要大量的并行计算。 Definitions (大)语言模型(LM,LLM):一种基于大量(通常是)文本数据训练的模型,以自监督的方式预测下一个单词。术语“大规模语言模型”(LLM)用于标识具有数十亿参数的语言模型,但这是一个不断变化的定义。 机器学习(ML):一种人工智能的子领域,通常使用统计技术使机器能够从数据中“学习”而无需明确给出如何操作的指令。这一过程被称为“使用学习算法训练模型”,该算法逐步提高模型在特定任务上的性能。 模型:对数据进行训练并用于进行预测的ML算法。自然语言处理(NLP):程序理解人类语言的能力。 提示:用户输入通常是以自然语言编写的一条指令,用于指示LLM生成内容或采取行动。 强化学习(RL):一个机器学习领域,在该领域中,软件代理通过在提供奖励或惩罚响应其行为的环境中不断尝试和错误来学习目标导向的行为(称为“策略”),以实现该目标。 自监督学习(SSL):一种无需人工标注的学习形式,原始数据通过自动化方式修改以创建人工标签来进行学习。半监督学习(Semi-supervisedLearning,SSL)的一个例子是通过随机遮掩句子中的单词并尝试预测缺失的单词来完成文本学习。 变压器:一种模型架构处于大多数最先进(SOTA)机器学习研究的核心。它由多个“注意力”层组成,这些层学习输入数据中对特定任务最重要的部分是什么。变换器起源于自然语言处理(特别是机器翻译),随后扩展到了计算机视觉、音频以及其他模态领域。 Definitions 模型类型图例 在其余幻灯片中,右上角的图标指示模型的输入和输出模式。 输入/输出类型:型号类型: :文本:图像</>:代码 □:软件工具使用(文本,代码生成和执行):视频 烙 □:音乐:3D →□:LLMs □ + → → → → → → →:多模态LLM ++→:机器人的多模态LLM :机器人状态:生物模态 </>:文本到代码 →:文本到软件工具使用 :文本到图像 :文本到视频 →:文本到音乐 :图像到3D :文本到3D :生物模型 执行摘要 Research -前沿实验室的表现趋于一致,但在o1发布后,OpenAI仍保持领先地位,因为规划和推理成为新的前沿领域。 -基础模型展示其能力突破语言界限,多模态研究推动其在数学、生物学、基因组学、物理科学和神经科学等领域的发展。 -美国制裁未能阻止中国(V)LLMs在社区排行榜上的上升。 Industry -NVIDIA仍然是世界上最强大的公司之一,市值达到数万亿美元的俱乐部成员,而监管机构正在调查生成式人工智能(GenAI)领域权力集中化的问题 。-更成熟的GenAI公司在营收上取得了数十亿美元的成绩,而初创企业也开始在视频和音频生成等领域崭露头角。尽管公司开始从模型过渡到产品,但长期的价格和可持续性问题仍未得到解决。-受公开市场牛市的推动,人工智能公司市值达到9万亿美元,私营公司的投资水平也健康增长。 政治 -尽管全球治理努力停滞不前,国家和地区层面的人工智能监管仍在推进,美国和欧盟通过了一些有争议的立法。-实际的计算需求迫使大型科技公司正视规模化过程中面临的现实物理限制以及自身的减排目标。同时,政府自身试图增强能力的努力仍然滞后。-预期的人工智能对选举、就业以及其他一系列敏感领域的潜在影响尚未大规模显现。 安全 -从安全转向加速,此前警告人类即将灭绝的公司现在需要加快企业销售和使用其消费者应用程序的速度。-全球各国政府效仿英国,增强在AI安全方面的国家能力,建立研究所并研究潜在的国家关键基础设施漏洞。-每一种提出的破解修复方案都失败了,但研究人员越来越关注更为复杂和长期的攻击。 记分卡:回顾我们对2023年的预测 我们的2023年预测 好莱坞级的作品利用生成AI进行视觉效果。 一家生成AI媒体公司因其在2024年美国大选中的滥用而受到调查。 自我改进的AI代理在复杂的环境(例如AAA游戏,工具使用,科学)中粉碎SOTA。 科技IPO市场解冻,我们看到一家专注于人工智能的公司(例如DBRX)至少有一家主要上市。GenAI扩展热潮看到一组花费超过10亿美元来训练一个大型模型。 美国FTC或英国CMA基于竞争理由调查微软/OpenAI交易。 我们认为,除了高级别自愿承诺之外,全球人工智能治理的进展有限。金融机构推出GPU债务基金,以取代VC股票资金用于计算资金。 AI生成的歌曲闯入BillboardHot100Top10或SpotifyTopHits2024。 随着推理工作负载和成本显著增长,一家大型人工智能公司(例如OpenAI)收购或建立一家专注于推理的人工智能芯片公司。 证据 YES ~ NO ~ NO YESYES NO YESYES 很大程度上很糟糕,但GenAIAI的视觉效果已经在Netflix和HBO作品中看到。还没有,但还有时间。 还没有,尽管在开放性方面有希望的工作,包括强劲的游戏性能。 尽管MagnificentSeven取得了强劲的增长,私营公司仍在等待市场稳定。然而,AI芯片公司Cerebras已提交了IPO申请。 还没有——让我们再给它一年。 两家监管机构都在调查这种合作关系。 布莱奇利和首尔峰会的承诺仍然是自愿的和高级别的。 有传言称,一些风投基金正在为股票提供GPU,但我们还没有看到任何人走上债务路线。 它其实去年就已经发生过,当时是“HeartonMySleeve”;我们还看到了一首由AI生成的歌曲进入德国排行榜第27位,并连续几天位居前50名。 萨姆·阿尔特曼reportedly正在筹集巨额资金来做这件事,而谷歌、亚马逊、Meta和微软继续开发和改进它们自己的AI芯片。 第1节:研究 → OpenAI的恐怖统治结束了,直到... 在全年大部分时间里,基准测试和社区排行榜都显示GPT-4与“其余最佳模型”之间存在巨大差距。然而,Claude3.5Sonnet、Gemini1.5和Grok2几乎消除了这一差距,因为模型性能开始趋于一致。 ●在正式基准和基于直觉的分析中,资金最充足的前沿实验室在各个能力上的得分相差仅几个百分点。 ●模型现在已成为高度有能力的编码器,擅长事实回忆和数学运算,但在解答开放性问题和多模态问题解决方面相对较弱。 ●许多差异足够小,现在很可能归因于实施上的不同。例如,GPT-4在MMLU (大规模多领域理解评测)上优于Claude3.5Sonnet,但在一个设计更为具有挑战性的基准MMLU-Pro上表现较差。 ●鉴于不同架构之间的相对细微技术差异以及预训练数据可能存在的大量重叠,模型构建者现在越来越多地需要在新功能和产品特性方面展开竞争。 → ...草莓落地了,在缩放推理计算上加倍投入 OpenAI团队显然早期就意识到了推理计算的潜力,OpenAIo1在其他实验室的相关论文发表几周后便出现。 ●通过将计算从预训练和后训练转移到推理阶段,o1能够以链式思维(COT)方式逐步解析复杂的提示,利用强化学习(RL)来优化COT及其所采用的策略。这解锁了解决多层数学、科学和编程问题的可能性,而这些问题长期以来一直是大语言模型(LLMs)的难题,原因在于下一token预测固有的限制。 ●OpenAI报告在推理密集型基准测试中取得了显著改进,相较于40%,特别是在2024年美国初中数学竞赛(AIME)中表现尤为突出,得分为83.83,而此前仅为13.4。 ●然而,这种能力附带高昂的成本:使用o1-preview的100万输入tokens需支付15美元,而输出tokens则需60美元,使其成本比GPT-4高出3至4倍。 ●OpenAI明确在其API文档中指出,它不是一对一的直接替代品,并且不是那些需要一致快速响应、图像输入或函数调用任务的最佳模型。 → O1展示了令人难以置信的力量和持续的弱点 社区迅速对o1进行了全面测试,发现它在某些逻辑问题和谜题上显著优于其他语言模型。然而,它的真正优势在于复杂数学和科学任务,一个博士生在病毒传播的视频中惊讶地反应出,o1在大约一小时内复现了他一年的博士代码。不过,该模型在某些空间推理方面仍表现较弱。就像其前辈一样,它还无法拯救地玩好国际象棋… …目前尚且如此。 → Llama3关闭开放和封闭模型之间的差距 在四月,Meta发布了Llama3系列,在七月发布了3.1版本,并在九月发布了3.2版本。其中,Llama3.1405B是他们迄今为止最大的模型,能够在推理、数学、多语言和长上下文任务中与GPT-4o和Claude3.5Sonnet展开竞争。这标志着