行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

2024年人工智能全景报告

2024-10-09-stateof.aiF***

AI智能总结

State of AI Report 2024

Introduction

Authors: Nathan Benaich (General Partner at Air Street Capital) and Alex Chalmers (Platform Lead at Air Street Capital).
Objective: To compile the most interesting developments in AI and trigger informed conversations about its future implications.

Definitions

Artificial Intelligence (AI): A broad discipline aimed at creating intelligent machines.
Artificial General Intelligence (AGI): Future machines that could match and exceed human cognitive abilities.
AI Agent: An AI system capable of taking actions in an environment.
AI Safety: The study and mitigation of risks posed by future AI.
Computer Vision (CV): The ability of programs to analyze and understand images and videos.
Deep Learning (DL): An AI approach inspired by neural networks recognizing complex patterns.
Diffusion: An algorithm that generates new, high-quality outputs by denoising corrupted signals.
Generative AI: AI systems capable of generating new content based on prompts.
Graphics Processing Unit (GPU): Semiconductor processing units used for training deep learning models.
Large Language Model (LLM): Models trained on vast amounts of data to predict the next word.
Machine Learning (ML): A subset of AI using statistical techniques to learn from data.
Model: An ML algorithm trained on data to make predictions.
Natural Language Processing (NLP): The ability of programs to understand human language.
Prompt: User input used to instruct an LLM.
Reinforcement Learning (RL): An area of ML where agents learn through trial and error.
Self-Supervised Learning (SSL): A form of unsupervised learning using automated data modification.
Transformer: A model architecture central to state-of-the-art ML research, using attention layers.

Key Dimensions

Research: Breakthroughs and capabilities of AI technologies.
Industry: Commercial applications and business impacts.
Politics: Regulation, economic implications, and geopolitical dynamics.
Safety: Mitigating risks posed by advanced AI.
Predictions: Expected developments over the next 12 months and a 2023 performance review.

Research

Frontier Lab Performance: Converging, with OpenAI maintaining an edge post-launch of o1, focusing on planning and reasoning.
Foundation Models: Demonstrating capability in breaking out of language into multimodal research, including math, biology, genomics, physical sciences, and neuroscience.
Chinese VLLMs: Rising despite US sanctions, showing resilience in community leaderboards.

Industry

NVIDIA: Dominant player, with a market valuation of $3T, while regulators investigate power concentration within generative AI (GenAI).
Revenue Growth: Established GenAI companies generating billions in revenue, with startups gaining traction in video and audio generation.
Challenges: Long-term questions around pricing and sustainability persist.

Politics

Global Governance: Stalled efforts, with national and regional regulation advancing, including controversial legislation in the US and EU.
Compute Requirements: Big Tech companies facing real-world constraints on scaling and emissions targets.
AI Effects: Potential impacts on elections, employment, and other sensitive areas yet to materialize at scale.

Safety

Shift from Safety to Acceleration: Companies previously warning about AI risks now focus on enterprise sales and app usage.
Government Initiatives: Governments building AI safety capacity, studying critical infrastructure vulnerabilities.
Attacks: Increasing concerns about sophisticated, long-term attacks, with jailbreaking fixes failing.

Executive Summary

Review of 2023 Predictions:
- Hollywood Visual Effects: Generative AI used successfully in visual effects.
- Media Company Investigation: Not yet, but investigations ongoing.
- Self-Improving Agents: No breakthroughs yet, but progress expected.

This summary captures the key points and highlights from the State of AI Report 2024, providing a comprehensive overview of the current state and future directions of AI.

AI报告的状态。 2024年10月10日 NathanBenaich AIRSTREETCAPIT.AL stateof.aiairstreet.com 关于作者 NathanBenaich Nathan是的普通合伙人空中街首都一家专注于投资AI-first公司的风险投资公司。他负责组织ResearchandAppliedAISummit（RAAIS）、RAAIS基金会（资助开源AI项目）、美国和欧洲的AI社区以及Spinout.fyi（旨在提升大学衍生企业的创建）。他在威廉姆斯学院学习生物学，并作为盖茨奖学金获得者在剑桥大学获得了癌症研究博士学位。关于作者亚历克斯·查默斯 Alex是平台负责人空中街首都并通过以下方式定期撰写有关AI的研究，分析和评论空气街出版社在他加入AirStreet之前，他曾在MilltownPartners担任高级顾问，为大型科技公司、初创企业和投资者提供政策和定位方面的建议。他于2017年在牛津大学获得历史学学位。人工智能（AI）是科学与工程的多学科领域，其目标是创建具有智能的机器。我们相信，在我们日益数字化、数据驱动的世界中，AI将成为推动技术进步的力量倍增器。这是因为当今周围的一切，从文化到消费品，都是智能的产物。《人工智能报告》现已进入第七个年头。将此报告视为对我们所见最有趣事物的汇总，旨在引发关于人工智能现状及其对未来影响的知情讨论。我们在报告中考虑以下关键维度： -研究：技术突破及其能力。 -行业：AI的商业应用领域及其业务影响。 -政治：人工智能的监管、其经济影响和人工智能不断演变的地缘政治。 -安全：识别和减轻未来高性能人工智能系统可能给我们带来的灾难性风险。 -预测：我们认为未来12个月会发生什么，以及2023年的业绩评估，以保持我们的诚实。由NathanBenaich和AirStreetCapital团队 Deﬁnitions 人工智能(AI)：一门广泛的学科，旨在创建智能机器，而非人类和动物所展现的自然智能。 Artﬁcial一般智力(AGI)：用于描述未来可能与人类在所有经济上具有价值的任务中展现出全面认知能力相当甚至超越的机器的术语。 AIAgent:一种由人工智能驱动的系统，可以在环境中采取行动。例如，一个大型语言模型（LLM）可以访问一系列工具，并需要决定使用其中哪一个以完成被要求执行的任务。 AI安全：一个研究并尝试减轻未来人工智能可能对人类构成的风险（从轻微到灾难性）的领域。计算机视觉(CV)：程序分析和理解图像和视频的能力。深度学习(DL)：一种受大脑神经元识别复杂数据模式启发的AI方法。“深度”指的是当前模型中多层神经元，这些层次有助于学习丰富的数据表示以实现更好的性能提升。扩散一种迭代去噪算法，用于处理人工篡改的信号以生成新的高质量输出。近年来，该算法在图像生成和蛋白质设计领域处于前沿地位。生成式AI：一种能够根据“提示”生成新内容（例如文本、图像、音频或3D资产）的AI系统家族。图形处理单元(GPU):一个用于并行计算大量数据的半导体处理单元。历史上，这一单元主要用于渲染计算机图形。自2012年以来，GPU已适应训练深度学习模型，这些模型同样需要大量的并行计算。 Deﬁnitions （大)语言模型(LM，LLM)：一种基于大量（通常是）文本数据训练的模型，以自监督的方式预测下一个单词。术语“大规模语言模型”（LLM）用于标识具有数十亿参数的语言模型，但这是一个不断变化的定义。机器学习(ML)：一种人工智能的子领域，通常使用统计技术使机器能够从数据中“学习”而无需明确给出如何操作的指令。这一过程被称为“使用学习算法训练模型”，该算法逐步提高模型在特定任务上的性能。模型：对数据进行训练并用于进行预测的ML算法。自然语言处理(NLP)：程序理解人类语言的能力。提示：用户输入通常是以自然语言编写的一条指令，用于指示LLM生成内容或采取行动。强化学习(RL)：一个机器学习领域，在该领域中，软件代理通过在提供奖励或惩罚响应其行为的环境中不断尝试和错误来学习目标导向的行为（称为“策略”），以实现该目标。自监督学习(SSL)：一种无需人工标注的学习形式，原始数据通过自动化方式修改以创建人工标签来进行学习。半监督学习（Semi-supervisedLearning,SSL）的一个例子是通过随机遮掩句子中的单词并尝试预测缺失的单词来完成文本学习。变压器:一种模型架构处于大多数最先进（SOTA）机器学习研究的核心。它由多个“注意力”层组成，这些层学习输入数据中对特定任务最重要的部分是什么。变换器起源于自然语言处理（特别是机器翻译），随后扩展到了计算机视觉、音频以及其他模态领域。 Deﬁnitions 模型类型图例在其余幻灯片中，右上角的图标指示模型的输入和输出模式。输入/输出类型：型号类型: :文本:图像</>:代码 □：软件工具使用(文本，代码生成和执行)：视频烙 □:音乐：3D →□:LLMs □ + → → → → → → →：多模态LLM ++→：机器人的多模态LLM ：机器人状态：生物模态 </>：文本到代码 →:文本到软件工具使用：文本到图像：文本到视频 →:文本到音乐：图像到3D :文本到3D ：生物模型执行摘要 Research -前沿实验室的表现趋于一致，但在o1发布后，OpenAI仍保持领先地位，因为规划和推理成为新的前沿领域。 -基础模型展示其能力突破语言界限，多模态研究推动其在数学、生物学、基因组学、物理科学和神经科学等领域的发展。 -美国制裁未能阻止中国（V）LLMs在社区排行榜上的上升。 Industry -NVIDIA仍然是世界上最强大的公司之一，市值达到数万亿美元的俱乐部成员，而监管机构正在调查生成式人工智能（GenAI）领域权力集中化的问题。-更成熟的GenAI公司在营收上取得了数十亿美元的成绩，而初创企业也开始在视频和音频生成等领域崭露头角。尽管公司开始从模型过渡到产品，但长期的价格和可持续性问题仍未得到解决。-受公开市场牛市的推动，人工智能公司市值达到9万亿美元，私营公司的投资水平也健康增长。政治 -尽管全球治理努力停滞不前，国家和地区层面的人工智能监管仍在推进，美国和欧盟通过了一些有争议的立法。-实际的计算需求迫使大型科技公司正视规模化过程中面临的现实物理限制以及自身的减排目标。同时，政府自身试图增强能力的努力仍然滞后。-预期的人工智能对选举、就业以及其他一系列敏感领域的潜在影响尚未大规模显现。安全 -从安全转向加速，此前警告人类即将灭绝的公司现在需要加快企业销售和使用其消费者应用程序的速度。-全球各国政府效仿英国，增强在AI安全方面的国家能力，建立研究所并研究潜在的国家关键基础设施漏洞。-每一种提出的破解修复方案都失败了，但研究人员越来越关注更为复杂和长期的攻击。记分卡：回顾我们对2023年的预测我们的2023年预测好莱坞级的作品利用生成AI进行视觉效果。一家生成AI媒体公司因其在2024年美国大选中的滥用而受到调查。自我改进的AI代理在复杂的环境(例如AAA游戏，工具使用，科学)中粉碎SOTA。科技IPO市场解冻，我们看到一家专注于人工智能的公司(例如DBRX)至少有一家主要上市。GenAI扩展热潮看到一组花费超过10亿美元来训练一个大型模型。美国FTC或英国CMA基于竞争理由调查微软/OpenAI交易。我们认为，除了高级别自愿承诺之外，全球人工智能治理的进展有限。金融机构推出GPU债务基金，以取代VC股票资金用于计算资金。 AI生成的歌曲闯入BillboardHot100Top10或SpotifyTopHits2024。随着推理工作负载和成本显著增长，一家大型人工智能公司（例如OpenAI）收购或建立一家专注于推理的人工智能芯片公司。证据 YES ~ NO ~ NO YESYES NO YESYES 很大程度上很糟糕，但GenAIAI的视觉效果已经在Netflix和HBO作品中看到。还没有，但还有时间。还没有，尽管在开放性方面有希望的工作，包括强劲的游戏性能。尽管MagniﬁcentSeven取得了强劲的增长，私营公司仍在等待市场稳定。然而，AI芯片公司Cerebras已提交了IPO申请。还没有——让我们再给它一年。两家监管机构都在调查这种合作关系。布莱奇利和首尔峰会的承诺仍然是自愿的和高级别的。有传言称，一些风投基金正在为股票提供GPU，但我们还没有看到任何人走上债务路线。它其实去年就已经发生过，当时是“HeartonMySleeve”；我们还看到了一首由AI生成的歌曲进入德国排行榜第27位，并连续几天位居前50名。萨姆·阿尔特曼reportedly正在筹集巨额资金来做这件事，而谷歌、亚马逊、Meta和微软继续开发和改进它们自己的AI芯片。第1节：研究 → OpenAI的恐怖统治结束了，直到... 在全年大部分时间里，基准测试和社区排行榜都显示GPT-4与“其余最佳模型”之间存在巨大差距。然而，Claude3.5Sonnet、Gemini1.5和Grok2几乎消除了这一差距，因为模型性能开始趋于一致。 ●在正式基准和基于直觉的分析中，资金最充足的前沿实验室在各个能力上的得分相差仅几个百分点。 ●模型现在已成为高度有能力的编码器，擅长事实回忆和数学运算，但在解答开放性问题和多模态问题解决方面相对较弱。 ●许多差异足够小，现在很可能归因于实施上的不同。例如，GPT-4在MMLU （大规模多领域理解评测）上优于Claude3.5Sonnet，但在一个设计更为具有挑战性的基准MMLU-Pro上表现较差。 ●鉴于不同架构之间的相对细微技术差异以及预训练数据可能存在的大量重叠，模型构建者现在越来越多地需要在新功能和产品特性方面展开竞争。 → ...草莓落地了，在缩放推理计算上加倍投入 OpenAI团队显然早期就意识到了推理计算的潜力，OpenAIo1在其他实验室的相关论文发表几周后便出现。 ●通过将计算从预训练和后训练转移到推理阶段，o1能够以链式思维（COT）方式逐步解析复杂的提示，利用强化学习（RL）来优化COT及其所采用的策略。这解锁了解决多层数学、科学和编程问题的可能性，而这些问题长期以来一直是大语言模型（LLMs）的难题，原因在于下一token预测固有的限制。 ●OpenAI报告在推理密集型基准测试中取得了显著改进，相较于40%，特别是在2024年美国初中数学竞赛（AIME）中表现尤为突出，得分为83.83，而此前仅为13.4。 ●然而，这种能力附带高昂的成本：使用o1-preview的100万输入tokens需支付15美元，而输出tokens则需60美元，使其成本比GPT-4高出3至4倍。 ●OpenAI明确在其API文档中指出，它不是一对一的直接替代品，并且不是那些需要一致快速响应、图像输入或函数调用任务的最佳模型。 → O1展示了令人难以置信的力量和持续的弱点社区迅速对o1进行了全面测试，发现它在某些逻辑问题和谜题上显著优于其他语言模型。然而，它的真正优势在于复杂数学和科学任务，一个博士生在病毒传播的视频中惊讶地反应出，o1在大约一小时内复现了他一年的博士代码。不过，该模型在某些空间推理方面仍表现较弱。就像其前辈一样，它还无法拯救地玩好国际象棋… …目前尚且如此。 → Llama3关闭开放和封闭模型之间的差距在四月，Meta发布了Llama3系列，在七月发布了3.1版本，并在九月发布了3.2版本。其中，Llama3.1405B是他们迄今为止最大的模型，能够在推理、数学、多语言和长上下文任务中与GPT-4o和Claude3.5Sonnet展开竞争。这标志着

点击免费查看完整报告